





1 LA M Nam D. 
(W) Luis Torgo % 
Pk 陈 道 轮 wori if 
PRIE Ball TEE E 
E uu ren laters 
Data Mining with R 
Learning with Case Studies 
Luis Torgo 
Os RC Press. 





Ol Hk T Xp oi he OS 


Ching Machine Press 





BA TEA i JRi& zi 


Data Mining with R Learning with Case Studies 


— Bernhard Pfahringer, 新 西 兰 怀 卡 托 大 学 


本 书 利用 大 量 给 出 必要 步 强 、 代 码 和 数据 的 具体 案例 ， 详 细 描 述 了 数据 挖掘 的 主要 过 程 和 技 
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本 书 的 支持 网 站 ( http://www.liaad.up.pt/~ltorgo/DataMiningWithR/ ) 给 出 了 案例 研究 的 所 有 代 
码 、 数 据 集 以 及 R 函 数 包 


本 书 特色 
e 通过 仔细 选择 的 案例 涵盖 了 主要 的 数据 挖掘 技术 
给 出 的 代码 和 方法 可 以 方便 地 复制 或 者 改编 后 应 用 于 自己 的 问题 
不 要 求 读 者 具有 R、 数 据 挖掘 或 统计 技术 的 基础 知识 
包含 R 和 和 MySQL 基础 知识 的 简介 
提供 了 对 数据 挖掘 技术 的 特性 、 缺 点 和 分 析 目 标的 基本 理解 。 
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本 书 首先 简要 介绍 了 R 软件 的 基础 知识 【安装 、R 数据 结构 、R 编程 、R 的 输入 和 输出 等 ) 。 然 后 通 
过 四 个 数据 挖掘 的 实际 案例 ( 药 类 频率 的 预测 、 证 券 趋势 预测 和 交易 系统 仿真 、 交 易 欺 诈 预 测 、 窒 阵列 数 
据 分 类 ) 介绍 数据 挖 扣 技术。 这 四 个 案例 基本 覆 兽 了 常见 的 数据 控 拨 技术 ， 从 无 监督 的 数据 控 捆 技术 、 有 
监督 的 速 据 控 搁 技术 到 半 监 督 的 数据 接 据 技术 。 全 书 以 实际 问题 、 解 快 方案 和 对 解决 方案 的 讨论 为 主线 来 
组 织 内 容 ， 脉 络 清晰 ， 并 且 各 章 自 成 体系 。 读 者 可 以 从 头 至 尾 逐 童 学 习 ， 也 可 以 棋 据 自己 的 需要 进行 学 
习 ， 找 到 上 自己 实际 问题 的 解 风 方案 。 

本 书 不 需要 读者 具备 和 数据 挖 拨 的 基础 知识 。 不 管 是 上 及 初学 者 ， 还 是 熟练 的 R 用 户 都 能 从 书 中 找到 
对 自己 有 用 的 内 容 。 读 者 既 可 以 把 本 书 作 为 学 习 如 何 应 用 R 的 一 本 优秀 教材 ， 也 可 以 作为 数据 控 气 的 工 
具 书 。 
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文艺 复兴 以 隆 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 领域 
取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 独 领 风 骚 。 
在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结 人 对， 计算 机 学 科 中 的 许多 泰山 北斗 同时 身 
处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 蕊 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 瑶 变 ， 
婚 遵 循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 寡 的 推动 下 ， 我国 的 计算 机 产业 发 展 迅 独 ， 对 专业 人 人 才 的 需求 日 益 人 迫切 。 
这 对 计算 机 教育 界 和 出 版 界 都 既是 机 过， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 
在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 年 间 积 证 和 发 展 
的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 
发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 广大 学 的 必由之路 。 | 

机 械 工业 出 版 社 华 章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 我 们 就 将 工作 重点 
放 在 了 和 蛋 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，MeGraw-Hil，Elsevier， 
MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教 
#4 45 BR Hy Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. Kernighan, Dennis Ritchie, Jim Gray, 
Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald E. 
Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 
称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 赛 助 ， 国 内 的 专家 不 仅 提 供 了 中 肯 的 选 
题 指 导 ， 还 不 套 劳 苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 
的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 这 些 书 籍 在 读 
者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影印 版 “ 既 典 原版 书库 ”作为 
姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 度 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 书 有 了 
质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 
计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达 
到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联 
系 方 法 如 下 ; 


华章 网 站 www. hzbook. com 
电子 邮件 :， hzjsj€ hzbook. com 
联系 电话 ，(010) 88379604 


联系 地 址 : 北京 市 西 坡 区 百 万 庄 南 街 1 号 
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方式 。 大 量 的 数据 正在 很 好 地 用 于 预测 客户 行为 和 结果 。 在 软件 方面 ，R 以 其 强大 的 功能 和 诱 人 的 价 
格 (免费 ) 正在 改变 着 定量 分 析 的 “生态 系统 ”。 

本 书 的 目的 是 引领 读者 迅速 地 进 人 这 两 个 世界 。 本 书 以 实际 案例 的 方式 介绍 数据 挖掘 和 R 软件 ， 
这 样 读者 就 可 以 在 真实 情境 中 进行 学 习 ， 而 不 会 迷失 在 统计 理论 的 细节 讨论 或 者 计算 机 科学 的 基础 概 
念 中 。 本 书 中 用 到 的 工具 全 部 是 免费 的 ，MySQL 数据 库 【用 于 数据 库 操 作 ) 和 R 软件 {用 于 分 析 )。 
因此 ， 本 书 教 给 你 的 是 如 何 动 手 的 知识 。 通 过 学 习 本 书 ， 你 将 体验 到 数据 挖 据 和 R 的 强大 功能 。 如 果 
你 能 安装 这 些 工 具 ， 并 通过 应 用 这 些 工 具 来 话 细 地 学 习 书 中 的 案例 研究 ， 你 将 收获 颇 丰 。 本 书 逐 步 地 
通过 案例 研究 来 介绍 R 的 概念 ， 如 果 你 还 不 熟悉 及 或 者 MySQL， 你 可 以 按 章节 顺序 来 学 习 这 些 案例 。 

本 书 的 原作 者 Lufs Torgo， 根 据 他 在 葡萄 牙 波 尔 图 大 学 丰富 的 教学 经 验 、 在 其 他 国家 讲授 数据 挖 扬 
课程 的 经 验 ， 以 及 聚集 了 世界 各 地 专业 人 士 的 Statistics. com 在 线 课程 中 的 教学 经 验 ， 精 心地 写作 了 
本 书 。 


"tea 


2012 #12 月 17 日 
Statistics. com 4E £ 3E 4€ A 35 35 d Peter Bruce 


中 区 版 序 | 


Data Mining with R; Learning with Case Studies 


目前 ， 数 据 控 掘 和 R 是 学 术 界 及 工业 界 中 的 两 个 关键 技术 。 丰 富 的 传感器 机 制 使 得 自动 收集 数据 
成 为 可 能 后 ， 产 生 了 非常 大 的 数据 集 ， 这 需要 自动 化 的 机 制 来 将 这 些 数据 转化 为 有 用 的 信息 ， 以 供 决 
策 者 使 用 和 参考 。R 是 一 个 开发 这 些 自动 化 机 制 的 很 好 选择 。R 提供 的 大 量 算法 和 方法 ， 以 及 它 的 自 
由 和 开放 源码 特性 ， 使 得 R 成 为 数据 挖掘 的 最 佳 选择 之 一 。 本 书 的 目的 是 向 读者 介绍 数据 挖掘 和 R 的 
知识 。 本 书 的 写作 思路 是 给 读者 介绍 一 系列 有 代表 性 的 研究 案例 ， 通 过 这 些 案 例 ， 读 者 不 仅 从 中 学 到 
主流 的 数据 挖掘 方法 ， 同 时 也 可 以 学 习 本 书 所 提供 的 R 代码 ， 并 最 终 把 这 些 代码 应 用 到 他 们 自己 的 数 
据 控 掘 项 目 中 。 

随 着 中 文 版 的 出 版 ， 我 希望 我 能 说 服 更 多 的 人 认识 R 和 数据 控 扎 的 优势 。 得 知 我 的 书 得 到 世界 各 
地 读者 的 关注 ， 对 我 而 言 是 一 项 伟大 的 荣誉 。 我 相信 本 书 中 文 版 的 发 行将 有 助 于 中 国 的 R 社 区。 对 所 
有 的 中 国 读者 ， 我 真诚 地 希望 ， 在 读 完 本 书后 ， 你 们 发 现 它 不 仅 有 助 于 你 们 的 工作 ， 同 时 你 们 将 和 我 
自己 一 样 增加 了 对 数据 挖掘 和 R 的 热情 。 


Luis Torgo 
2012 年 12 H8 16 B T, RS 
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本 书 是 2011 PRE SABA (Chapman & Hall/CRC) 出 版 的 《Data Mining with R; Learning 
with Case Studies) 一 书 的 中 文 版 。 黄 文 版 从 出 版 后 就 在 亚马逊 美国 网 站 上 得 到 了 极 高 的 评价 ， 是 2011 
年 亚马逊 网 站 上 数据 控 据 类 书籍 销量 最 好 的 一 本 。 机 械 工业 出 版 社 以 极 快 的 速度 引进 这 本 书 的 中 文 片 ， 
使 国内 读者 在 原版 出 版 一 年 左右 的 时 间 里 读 到 本 书 ， 不 得 不 筑 扬 他 们 独到 的 眼 共 。 本 书 翻 译 完 稿 的 时 
f (2012 年 10 月 ) ， 其 英文 版 的 销量 还 是 排 在 专业 书籍 的 前 列 ， 原 作者 为 本 书 维护 了 一 个 网 站 ， 读 者 
可 以 访问 该 网 站 查看 这 些 信 息 。 

本 书 的 作者 Luts Torgo 是 一 位 数据 挖 拥 专 家 ， 同 时 也 是 一 位 R 开发 者 。 本 书 给 出 了 四 个 数据 挖掘 的 
实际 案例 ， 它 们 分 别 是 匣 类 频率 的 预 副 、 证 券 趋 势 预 油 和 区 易 系 统 仿真 、 交 易 欺 人 放 预 珊 ， 以 及 微 阵列 
数据 分 类 。 这 四 个 案例 基本 覆盖 了 贡 见 的 数据 挖掘 技术 ， 从 无 监督 的 数据 控 气 撤 术 、 有 监督 的 数据 控 
掘 技术 到 半 监 督 的 数据 挖掘 技术 。 同 时 这 四 个 案例 从 数据 量 、 分 析 目 标 和 数据 类 型 方面 引出 了 各 种 各 
样 的 挑战 性 问题 ， 本 书 给 出 了 克服 这 些 挑战 的 方法 和 技巧 。 阅 读本 书 不 需要 具备 R 和 数据 挖掘 的 基础 
知识 。 为 了 恒 于 读者 阅读 ， 本 书 第 1 章 给 出 了 R 软件 的 基础 知识 (安装 、R 数据 结构 、R 编程 、R 的 
输入 和 输出 等 ) 。 全 书 以 实际 问题 、 解 决 方案 和 对 解决 方案 的 讨论 为 主线 来 组 织 内 容 。 读 者 既 可 以 把 
本 书 作为 学 习 如 何 应 用 R 的 一 本 优秀 教材 ， 也 可 以 作为 数据 挖掘 的 工具 书 。 读 者 可 以 根据 自己 的 需要 
参考 书 中 的 某 些 具体 方法 ， 找 到 自己 实际 问题 的 解决 方案 。 

R 本 身 是 一 款 十 分 优秀 的 统计 分 析 和 数据 控 据 软件 ， 有 关 R 的 书籍 和 文档 也 是 相当 多 的 。 但 是 系 
统 地 讲解 用 R 进行 数据 挖掘 的 书籍 目前 还 没有 。 本 书 以 四 个 案例 研究 的 形式 组 织 内 容 ， 脉 络 请 晰 ， 并 
且 各 章 目 成 体系 。 读 者 可 以 从 头 逐 章 学 习 ， 也 可 以 根据 自己 的 需要 进行 学 习 。 不 管 是 R 初学 者 ,还 是 
熟练 的 R 用 户 都 能 从 书 中 找到 对 自己 有 用 的 内 容 。 

本 人 在 2011 年 年 初学 习作 者 Luts Torgo 在 Statistics. com 上 的 在 线 课程 ， 深 感 本 书 的 内 容 极 具 实用 
价值 ， 戎 生 了 把 本 书 翻 译 为 中 文 的 念头 。2011 年 年 末 ， 人 恰 着 机 械 工 业 出 版 社 华章 公司 引进 了 本 书 的 版 
权 ， 在 王 春 华 编辑 的 支持 下 ， 我 承担 了 本 书 的 翻译 工作 。 由 于 英文 的 习惯 和 汉语 有 较 大 的 不 同 ， 对 于 
一 些 特别 长 的 句 式 ， 译 者 按照 原文 的 意思 进行 了 分 解 处 理 。 关 于 书 中 的 术语 ， 译 者 尽量 采用 中 文 已 有 
的 对 应 术语 ， 如 果 中 文 没 有 对 应 术语 ， 译 者 尽力 采用 贴切 的 名 称 来 反映 原文 中 的 术语 。 

本 书 的 翻译 工作 由 李 潍 成 、 陈 道 轮 和 吴立明 共同 完成 。 另 外 ， 许 金 玮 、 朱 振兴 、 陈 冰 、 汤 静 文 、 
盟 秋 址 、 张 广 予 等 也 对 本 书 的 部 分 翻译 提供 了 帮助 。 在 本 书 的 翻译 过 程 中 ， 原 作者 Tog 博士 多 次 就 
译 者 提出 的 问题 进行 耐心 而 细致 的 解答 。 这 里 对 他 的 帮助 表示 由 衷 的 谢意 。 另 外 ， 感谢 美国 统计 教育 
学 院 Peter Bruce 为 本 书 中 文 版 写 的 推荐 序 。 由 于 水 平 所 限 ， 书 中 可 能 会 有 翻译 不 当 之 处 ,希望 读者 多 
加 指正 。 


李 洪 成 
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本 书 的 主要 目的 是 向 读者 介绍 如 何 用 R 进行 数据 挖掘 。R 是 一 个 可 以 自由 下 载 的 语言 ， 它 提供 
统计 计算 和 绘图 环境 ， 其 功能 和 大 量 的 添加 包 使 它 成 为 一 款 优秀 的 、 多 个 已 有 (昂贵 ) 数据 挖掘 工具 
的 替代 软件 。 

数据 挖掘 的 一 个 关键 问题 是 数据 量 。 典 型 的 数据 挖掘 问题 包括 一 个 大 的 数据 库 ， 需 要 从 中 提取 有 
用 的 信息 。 在 本 书 中 ， 我 们 用 MySQL 作为 核心 数据 库 管理 系统 。 对 多 个 计算 机 平台 ，MySQL 也 是 免费 
的 。 这 意味 着 ,我 们 可 以 不 用 付 任 何 费 用 就 可 以 进行 “重要 的 ”数据 挖 所 任务 。 同 时 ， 我 们 希望 说 
明 解 决 方案 质量 上 并 没有 任何 损失 。 昂 焉 的 工具 并 不 意味 着 一 定 更 好 ! 只 要 你 愿意 花 时 间 来 学 习 如 何 
应 用 它们 ，R 和 MySQL 就 是 一 对 很 难 超越 的 工具 。 我 们 认为 这 是 值得 的 ， 希 望 在 读 完 本 书 之 后 ， 你 也 
相信 这 点 。 

本 书 的 目的 不 是 介绍 数据 挖掘 的 各 个 方面 。 许 多 已 有 的 书籍 覆盖 了 数据 挖掘 领域 。 我 们 用 几 个 
案例 来 向 读者 介绍 R 的 数据 挖掘 能 力 。 显 然 ， 这 几 个 案例 不 能 代表 我 们 在 现实 世界 中 碰 到 的 所 有 数 
据 挖 扬 问 题 。 同 时 ， 我 们 给 出 的 解决 方案 也 不 是 最 完全 的 方案 。 我 们 的 目的 是 通过 这 些 实际 案例 向 
读者 介绍 如 何 用 R 进行 数据 控 据 。 因 此 ， 我 们 案例 分 析 的 目的 是 展示 用 R 进行 信息 提取 的 例子 ， 而 
不 是 提供 数据 控 捆 案例 的 完整 分 析 报 告 。 它 们 可 以 作为 任何 数据 挖 扎 项 目的 可 能 思路 ,或 者 作为 开 
发 数据 挖掘 项 目 解决 方案 的 基础 。 尽 管 如 此 ， 我 们 尽力 尝试 覆盖 多 方面 的 问题 ， 展 示 数 据 大 小 、 不 
同 数据 类 型 、 分 析 目 标 和 进行 分 析 所 必需 的 工具 所 带 来 的 挑战 。 然 而 ， 这 里 的 实践 方式 也 是 有 代价 
的 。 实 际 上 ， 作 为 具体 案例 研究 的 一 种 形式 ， 为 了 让 读者 在 自己 的 计算 机 上 执行 我 们 所 描述 的 步 
丸 ， 我 们 也 做 了 某 些 妥协 。 也 就 是 说 ， 我 们 不 能 处 理 太 大 的 问题 ， 这 些 问题 要 求 的 计算 机 资源 不 是 
每 个 人 都 具备 的 。 尽 管 这 样 ， 我 们 认为 本 书 涵盖 的 问题 也 不 算 小 ， 并 对 不 同 的 数据 类 型 和 维度 给 出 
了 解决 方案 。 

这 里 并 不 要 求 读者 具有 R 的 先 验 知识 。 没 有 学 过 R 和 数据 挖 拥 的 读者 应 该 可 以 学 习 书 中 的 案例 。 
书 中 的 各 个 案例 相互 独立 ， 读 者 可 以 从 书 中 任何 一 个 案例 开始 。 在 第 一 个 简单 案例 中 ， 给 出 了 一 些 基 
本 的 R 知识 。 这 意味 着 ， 如 果 你 没有 学 过 R， 至 少 应 该 从 第 一 个 案例 开始 学 习 。 而且， 第 1 章 给 出 了 
R fü MySQL 的 简介 ， 它 可 以 帮助 你 理解 后 面 的 章节 。 我 们 也 没有 假设 你 熟悉 数据 挖 据 和 统计 技术 。 在 
每 个 案例 的 必要 地 方 ， 都 对 不 同 的 数据 控 摘 技术 进行 了 介绍 。 本 书 的 目的 不 是 向 读者 介绍 这 些 技术 的 
理论 细节 和 全 面 知识 ， 我 们 对 这 些 工具 的 描述 包括 了 它们 的 基本 性 质 、 缺 点 和 分 析 目 标 。 如 果 需 要 进 
一 步 了 解 技术 细节 ， 可 以 参考 其 他 书籍 。 在 某 些 节 的 末尾 ， 我 们 提供 了 “参考 资料 "， 如 果 露 要， 可 
以 参考 它们 。 总 之 ， 本 书 的 读者 应 该 是 数据 分 析 工 具 的 用 户 ， 而 不 是 研究 人 员 或 者 开发 人 员 。 同 时 ， 
我 们 希望 后 者 把 本 书 作为 进入 R 和 数据 控 握 “世界 ”的 一 种 方式 ， 从 而 发 现 本 书 的 用 途 。 


© 下 载 网 址 ，http:， //www. r-project. org; 
e 下 载 网 址 ，htp : //www. mysql. com, 


本 书 有 一 个 免费 的 R 代码 集 ， 可 以 从 本 书 网 站 下 载 。 其 中 含有 案例 研究 中 的 所 有 代码 ， 这 可 以 
帮助 你 的 实践 学 习 。 我 们 强烈 建议 读者 在 阅读 本 书 时 安装 R 并 实验 书 中 的 代码 。 而 且 ， 我们 创建 了 一 
个 名 为 DMwR 的 R 添加 包 ， 它 包 伸 本 书 用 到 的 多 个 函数 和 以 R 格式 保存 的 案例 数据 集 。 你 应 该 按照 本 
书 的 指示 ， 安 装 并 加 载 该 添加 包 (第 1 章 给 出 了 细节 )。 


© F#M: http; /"^www. liaad. up. pt’ ~ ltorgo/DataMiningWithR/ , 
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向 介 


R 是 一 种 用 于 统计 计算 的 编程 语言 和 环境 ， 它 与 AT&T 贝尔 实验 室 的 Rick Becker, John 
Chambers 和 Allan Wilks 开发 的 S 语言 很 相似 。 随 着 操作 系统 的 不 同 ，R 语言 有 UNIX MUR, 
Windows 版 本 和 Mac 版 本 。R 可 以 在 不 同体 系 结构 的 计算 机 系统 上 运行 ， 例 如 Intel, PowerPC, 
Alpha 系统 以 及 Sparc 系统 。R 最 早 由 新 西 兰 奥克兰 大 学 的 Ihaka 和 Gentleman 于 1996 年 开发 。 现 
在 及 的 开发 由 一 个 几 十 人 组 成 的 核心 团队 来 负责 ， 核 心 团 队 的 成 员 来 自 于 直 界 各 地 的 不 同 机 构 
和 单位 。 由 于 R 的 开源 性 ，R 软件 的 开发 采用 社区 合作 的 方式 。R 的 所 有 源 代 码 都 可 以 免费 获取 
以 便 进行 检验 或 者 利用 。 这 样 你 就 可 以 检查 和 测试 你 应 用 的 R 软件 的 可 靠 性 。 人 们 对 开源 软件 
模式 有 诸多 指责 ， 其 中 最 多 的 是 认为 开源 软件 缺少 支持 是 其 主要 缺陷 之 一 。 但 是 对 于 R 软件 ， 
该 缺陷 却 不 存在 ! 有 许 雪 很 好 的 文档 、 书 籍 和 网 站 提供 了 免费 的 R 资料 。 另 外 ,及 帮助 邮件 列表 
是 获取 免费 R 帮助 信息 和 建议 的 极 好 来 源 ， 它 甚至 比 付 费 的 帮助 更 好 ! R 有 一 个 可 搜索 的 邮件 
列表 文档 。 在 邮件 列表 中 提问 前 ， 可 以 先 查找 这 个 可 搜索 的 邮件 列表 文档 。 (也 应 该 这 样 做 1) 
可 以 在 R 网 站 的 “Mailing Lists”( 邮件 列表 ) 部 分 得 到 有 关 R 邮件 列表 的 更 多 信息 。 

数据 挖 所 是 应 用 统计 学 、 机 器 学 习 和 模式 识别 等 学 科 的 知识 ， 从 数据 中 发 现 有 用 的 、 有 效 
的 、 未 知 的 并 且 可 以 理解 的 信息 的 一 项 技术 。 数 据 挖掘 的 一 项 重要 特征 是 数据 的 维度 。 随 着 计算 
机 技术 和 信息 系统 的 广泛 应 用 ， 需 要 探索 的 数据 呈 指 数 增 长 。 这 给 传统 的 数据 分 析 学 科 带 来 了 
PAR: 必须 考虑 计算 的 效率 、 内 存 资 源 的 限制 、 数 据 库 接口 等 。 这 些 使 得 数据 挖掘 成 为 一 门 商 度 
交叉 的 学 科 ， 它 不 仅 有 传统 数据 分 析 的 任务 ， 也 有 数据 库 的 工作 ， 高 维 数据 可 视 化 等 。 

由 于 R 的 所 有 计算 是 在 计算 机 的 内 存 中 进行 的 ， 所 以 R 在 处 理 大 数据 集 上 有 了 限制。 但 是 这 
并 不 意味 着 我 们 不 能 处 理 这 些 问题 ， 利 用 了 R 高 度 灵活 的 数据 库 接口 ， 我 们 可 以 对 大 型 问题 进行 
数据 挖掘 。 基 于 开源 软件 的 信念 ， 我 们 可 以 应 用 优秀 的 MySQL 数据 库 管理 系统 =。MySQL 可 以 
应 用 在 大 多 数 的 计算 机 平台 和 操作 系统 上 。 而 且 ，R 的 添加 包 RMySQL (James and DebRoy, 
2009) 可 以 使 我 们 便捷 地 访问 MySQL 数据 库 。 

总 之 ,我们 希望 在 读 完 本 书 之 后 ， 你 能 够 相依 不 用 花 钱 就 可 以 进行 大 型 问题 的 数据 挖掘 。 这 
一 切 都 归功 于 开发 出 R 和 MySQL 这 样 优 秀 软件 的 人 们 的 慷慨 贡献 。 

1.1 如 何 阅读 本 书 

本 书 基于 做 中 学 的 宗旨 ， 组 织 了 一 系列 的 案例 研究 。 这 些 案例 的 “解决 方案 ”通过 R 来 获 
取 。 本 书 描述 了 所 有 得 到 “解决 方案 ”的 必要 步 又 。 通 过 本 书 提供 的 网 站 ”， 可 以 获取 本 书 有 关 
的 R 添加 包 (DMwR)， 所 有 的 R 代码 和 案例 研究 数据 都 在 相关 的 文档 中 。 这 可 以 让 你 方便 地 自 
己 进行 实验 。 理 论 上 ， 你 应 该 在 计算 机 上 阅读 这 些 文档 并 尝试 这 些 文档 中 演示 给 你 的 每 一 个 步 


5 下 载 地 址 ; hip: “www. mysql com, 
http: //www. liaad. up. pt“ ~ ltorgo/ DataMiningWithR/ 。 


2* 数据 控 拥 与 R 语言 


骤 。 在 本 书 中 ，R 代码 是 用 以 下 代码 体 来 表示 的 ; 


» R.version 


platform i486-pc-linux-gnu 
arch 1486 

os linux-gnu 
system i486, linux-gnu 
status 

major 2 

minor 10.1 

year 2009 

month 12 

day 14 

evn rev 50720 

language R 


version.string R version 2.10.1 (2009-12-14) 


FER 的 命令 行 提示 符 “> ”之 后 输 人 R 命令 。 当 看 到 这 个 提示 符 时 ， 你 可 以 理解 为 R 在 等 
待 输 人 命令 。 在 命令 提示 符 后 输 人 命令 ， 然 后 按 下 ENTER ( 回 车 ) 键 让 R 来 执行 它们 。 这 可 能 
会 产生 某 种 形式 的 输出 《 即 R 命令 的 结果 ) ， 然 后 出 现 一 个 新 的 提示 符 。 在 提示 符 处 ， 你 可 以 使 
用 箭头 键 来 浏览 和 编辑 以 前 输入 过 的 命令 。 若 以 前 输入 了 类 似 的 命令 ， 通 过 编辑 以 前 的 命令 可 
以 方便 地 得 到 你 需要 的 命令 ， 这 就 避免 了 重复 输入 。 可 以 复制 、 粘 贴 本 书 网 站 提供 的 代码 到 R 
编译 器 或 者 R 控制 台 ， 这 样 就 可 以 避免 自己 输入 书 中 的 那些 代码 ， 这 绝对 会 使 你 的 学 习 更 加 便 
捷 ， 并 加 深 你 对 书 中 知识 的 理解 。 


1.2 R 简介 


本 节 提 供 了 R 语言 中 关键 术语 的 简要 介绍 。 读 者 不 需要 熟悉 计算 机 编程 知识 就 可 以 容易 地 
掌握 本 节 中 介绍 的 例子 。 不 过 ， 如 果 你 觉得 没有 动力 来 学 习 这 部 分 R 简介 ， 可 以 先 跳 过 本 章 的 RR 
简介 部 分 ， 直 接 进 行 案例 研究 。 当 你 从 具体 应 用 中 得 到 更 多 的 学 习 及 语言 的 动机 后 ， 再 返回 本 
章 的 R 简介 部 分 。 | 

R 是 一 门 用 于 统计 计算 和 绘图 的 函数 语 育 。 它 可 以 看 做 是 5 语言 的 一 种 方言 (由 AT&T 公司 
开发 ) 。S 语言 的 开发 者 John Chambers 因为 S 语言 而 于 1998 年 被 授 巴 计算机 学 会 ( Association of 
Computing Machinery, ACM) 软件 奖 ， 获 奖 时 提 到 5 语言 “永远 改变 了 人 们 分 析 、 可 视 化 和 操作 
数据 的 方式 ”。 

仅仅 在 命令 行 交 互 方式 下 R 就 已 经 非常 有 用 了 。 也 可 以 有 更 高 级 的 应 用 R 软件 系统 的 方式 ， 
比如 用 户 可 以 开发 自己 的 函数 来 执行 系统 性 的 重复 任务 ， 甚 至 可 以 利用 R 的 开源 优点 来 增加 或 
者 修改 已 有 的 R 添加 包 中 的 功能 ， 

1.2.1 R 起 步 

在 计算 机 中 安装 RR 最 简单 的 方法 是 从 R 网 站 ”获取 一 个 二 进 制 发 行 版 。 从 R 网 站 的 链接 中 可 
以 找到 综合 R 文档 网 站 (Comprehensive R Archive Network ，CRAN) ， 在 该 网 站 的 诸 包 资源 中 ， 可 
以 找到 适合 你 操作 系统 / 织 构 的 二 进 制 发 行 版 。 如 果 喜 欢 直 接 从 R 源 代码 来 安装 R 软件 ， 可 以 从 

R AY CRAN 网 站 得 到 从 源 代 码 安 装 R 的 指导 文档 。 
下 载 适 合 你 操作 系统 的 二 进 制 发 行 版 后 ， 只 需要 按照 其 中 的 说 明 ， 一 步 一 步 进 行 即 可 。 对 于 


© http: //www. r-project. org. 
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R 的 Windows 版 本 ， 只 需 运行 下 载 文 件 (R-2.10. 1- win32. exe)” ， 在 之 后 的 菜单 中 选择 所 需要 的 
选项 。 在 某 些 操作 系统 中 ， 由 于 缺乏 安装 软件 的 权限 ， 可 能 需要 联系 系统 管理 员 来 完成 安 半 
HE. 

在 Windows 操作 系统 中 ， 只 需要 双击 桌面 上 相应 的 图 标 就 可 以 运行 R; 而 在 UNIX 操作 系统 
中 ， 则 需要 在 操作 系统 提示 符 后 输入 字母 R。 它 们 最 终 将 启动 带 有 命令 行 提 示 符 “>” 的 民 控 
制 台 。 

如 果 想 退出 R， 可 以 在 R 提示 符 下 输 人 指令 q()。R 将 询问 是 否 要 保存 当前 工作 空间 的 内 
容 。 如 果 想 在 以 后 恢复 当前 R 退出 时 的 分 析 内 容 ， 应 该 回答 “是 ”。 

RAR 安装 后 有 了 了 强 太 的 功能 ,但 是 你 可 能 需要 安装 一 些 CRAN 上 其 他 的 R 添加 包 。 在 
Windows 版 本 中 ， 很 容易 通过 “程序 包 ” 和 药 单 来 安装 R 添加 包 。 将 计算 机 连接 到 互联 网 后 ， 应 
该 在 菜单 中 选择 “安装 程序 包 ... ”这 个 选项 。 选 择 该 选项 后 ，R 首先 弹出 一 个 CRAN 的 镜像 窗 
口 ， 让 你 选择 合适 的 CRAN 镜像 网 站 。 选 择 了 CRAN 镜像 网 站 之 后 ， 它 会 给 出 另外 一 个 窗口 ， 列 
出 在 CRAN 网 站 上 可 用 的 R 添加 包 列 表 。 在 列表 中 选择 你 需要 的 添加 包 后 ，R 将 下 载 该 添加 包 并 
上 自动 安装 在 R 软件 系统 中 。 在 UNIX 版 本 中 ， 添加 包 的 安装 可 能 会 随 着 R 安装 过 程 中 图 形 功能 的 
不 同 而 略 有 不 同 。 不 过 ， 即 使 不 是 使 用 菜单 来 安装 ， 通 过 命令 行 安 装 添加 包 也 是 很 简单 的 ?>。 假 
设 需要 要 下 载 一 个 能 够 提供 连接 到 MySQL 数据 库 功 能 的 添加 包 ， 包 的 名 称 是 RMySQL “。 只 需要 
TE R 提示 符 处 输入 以 下 命令 : 

> install.packages( RMySQL') 

install. packages( ) 函数 有 许多 参数 ， 其 中 有 CRAN 镜像 库 参 数 repos， 通 过 该 参数 可 以 设 定 
离 你 最 近 的 CRAN 镜像 了 。 尽 管 如 此 ， 当 第 一 次 在 R 会 话 中 运行 该 命令 时 ，R 会 提示 你 选择 需要 
使 用 的 CRAN 镜像 库 。 

你 应 该 做 的 事情 之 一 是 安装 本 书 提 供 的 R 添加 包 ， 该 添加 包 提 供 了 本 书 用 到 的 数据 集 和 仙 
穿 全 书 的 多 个 蚂 数 。 和 安装 其 他 R 添加 包 一 样 ， 安 装 本 书 提 供 的 添加 包 的 代码 如 下 ， 

> install.packages('DMwR') 

如 果 你 想 知 道 目 前 在 计算 机 上 已 经 安装 的 R 添加 包 ， 可 执行 以 下 命令 ; 

> installed.packages() 

这 将 产生 一 个 很 长 的 输出 ， 输 出 的 每 一 行 包含 一 个 包 和 名 、 版 本 信息 、 所 依赖 的 包 等 。 另 外 一 
种 获取 已 经 安装 的 R 添加 包 的 方式 是 用 以 下 命令 : 

> library{) 

尽管 它 的 输出 信息 不 完整 ， 但 是 却 用 户 友 好 的 。 另 外 一 个 非常 有 用 的 命令 是 检查 CRAN 上 是 
否 有 已 安装 的 R 添加 包 的 更 新 版 本 : 

^ old.packages() 

此 外 ， 可 以 使 用 下 面 的 命令 来 更 新 所 有 已 安装 的 R 软件 包 : 

> update.packages() 

R 软件 有 一 个 集成 的 帮助 系统 ， 可 以 用 它 来 了 解 更 多 的 R 函数 和 R 软件 系统 。 此 外 ， 可 以 


实际 的 文件 名 随 着 R 版 本 的 不 同 而 和 不同 ， 这 里 的 文件 名 是 及 2. 10. 1 的 文件 和 名。 

注意 ， 这 里 的 R 命令 在 Windows 操作 系统 下 也 是 可 以 运行 的 ， 尽 管 应 用 菜单 更 实用 些 。 
可 以 从 R 的 CRAN 网 站 的 常见 问题 部 分 (R FAQ). 了 解 每 一 个 R 添加 包 的 功能 。 

所 有 的 CRAN 和 镜像 库 列 表 可 以 从 网 站 bttp: //cran. r-project. org/mirrors. html 得 到 。 


aaoo 
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在 R 网 站 找到 更 多 的 R 文档 。R 软件 带 有 一 组 HTML 文件 ， 可 以 使 用 Web 浏览 器 读 取 它们 。 在 
Windows 版 本 的 R 上， 可 以 通过 帮助 菜单 来 访问 这 些 网 页 。 另 外 ， 也 可 以 在 RR 提示 符 下 执行 命令 
help. start( ) 来 启动 浏览 器 以 显示 这 些 HTML 帮助 页 面 。 另 一 种 得 到 帮助 的 形式 是 使 用 help( ) 
me. BAD, MRE plot() 函数 的 帮助 信息 ， 可 以 输入 命令 “help (plot)” (或 者 ? plot). 
如 果 连 接 到 互联 网 ， 那 么 一 个 相当 强大 的 功能 就 是 使 用 RSiteSearch( ) 恩 数 ， 用 它 来 搜索 邮件 列 
表 文 档 、R 手册 和 R 帮助 页 面 中 的 关键 词 或 短语 ， 例 如 : 

> RSiteSearch('neural networks') 

最 后 , 在 Web 上 还 有 几 个 地 方 可 以 找到 R 的 各 种 帮助 内 容 ， 如 网 站 http: //www. 
rseek. org/ 。 
1.2.2 R 对象 

R 语言 有 两 个 主要 概念 : 对 象 和 函数 。R 对 象 可 以 看 做 是 具有 关联 名 称 的 存储 空间 。R 中 的 
一 切 都 存储 在 一 个 对 象 中 。 所 有 的 变量 、 数 据 、 郴 数 等 都 是 以 命名 对 象 的 形式 存 情 在 计算 机 的 内 
存 中 。 

函数 是 一 种 用 来 进行 某 个 操作 的 特殊 类 型 的 R 对 象 。 它 们 通常 接受 一 些 输 入 和 参数， 通过 执 
行 一 系列 的 操作 产生 结果 (它们 通常 由 其 他 函数 来 调用 )。R 已 经 有 大 量 的 函数 可 供 使 用 ， 但 稍 
后 还 将 看 到 ， 用 户 还 可 以 创建 新 的 函数 。 

可 以 使 用 赋值 运算 符 把 内 容 存 储 到 对 象 中 。 赋 值 运 算 符 是 用 一 个 尖 插 号 和 一 个 减 号 来 表示 
Ay ( «-)9: 

> x č- 945 

上 一 条 指令 的 作用 是 把 数值 945 fefe mg x 的 对 人 象 中 。 只 需要 在 R 提示 符 后 输入 对 象 的 名 
称 ， 就 可 以 看 到 它 的 内 容 。。 


* = 


[1] 945 

而 在 数字 945 前 面 的 “”[1] ”可 以 读 作 “此 行 是 从 对 象 的 第 一 个 元 素 开 始 显示 的 值 "。 后 面 
我 们 会 看 到 ， 这 样 的 显示 对 于 包 售 多 个 值 的 对 象 (例如 向 量 等 ) 特别 有 用 。 

下 面 给 出 其 他 赋值 语句 的 例子 。 这 些 例 子 清楚 地 说 明 这 是 一 个 “破坏 性 ”的 操作 。 因 为 在 
任何 时 间 1:， 一 个 对 象 只 能 有 一 个 给 定 的 内 容 。 这 意味 着 ,将 某 些 新 的 内 容 分 配给 现 有 对 象 时 ， 
该 对 象 就 失去 了 其 先前 的 内 容 。 

> y <- 39 

>y 

[1] 39 


^ y €- 43 

^y 

[1] 43 

也 可 以 把 数值 表达 式 赋 给 一 个 对 象 。 在 这 种 情况 下 ， 该 对 象 将 存储 表达 式 的 结果 : 
»ztz-5 

»wt-z2 

> W 





e 这 里 也 可 以 用 “= ”作为 赋值 运算 符 , 但 是 不 建议 采用 ， 因 为 “=” 可 能 与 相等 测试 混 清 。 
局 ”如果 名 称 输 人 不 正确 ， 则 会 得 到 错误 信息 ， 这 是 应 用 R 时 经 常 发 生 的 一 种 错误 ! 
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[1) 25 

>i <- (z * 2 + 45)/2 

> d 

[1] 27.5 

我 们 可 以 这 样 来 看 赋值 运算 ， 无 论 运算 符 右 侧 是 什么 ， 都 先 计算 右 侧 ， 然 后 把 计算 结果 赋 给 
【存储 ) 赋值 号 左 侧 的 对 象 。 

如 果 只 是 想 知 道 某 些 算术 运算 的 结果 ， 那么 不 需要 把 表达 式 的 结果 赋 给 对 象 。 实 际 上 ， 可 以 
把 R 提示 符 作 为 一 种 计算 器 : 

» (34 + 90)/12.5 


[1] 9.92 

创建 的 每 个 对 象 都 将 存储 在 计算 机 内 存 中 ， 直 到 删除 它 。 可 能 通过 输 人 ls( ) 或 objects( ) 
命令 列举 出 当前 内 存 中 的 对 象 。 如 果 不 再 需要 一 个 对 象 了 ， 可 以 通过 删除 它 来 释放 一 些 内 存 
空间 ; 

> ls() 

(1) "i" "yu" "x" ay" Ha" 

> rm(y) 

> rm(z, W, i) 

对 象 名 称 可 以 包括 任何 大 写字 母 、 小 写字 母 、 数 字 0 ~9 (不 能 用 于 名 称 的 开头 ) 以 及 和 字 
母 作 用 相似 的 符号 “."。 注 意 ， 在 R 中 的 和 名称 是 区 分 大 小 写 的 ， 这 意味 着 Color 和 color 是 两 个 
不 同 的 对 象 。 实 际 上 ， 这 常常 是 导致 初学 者 过 到 “ 找 不 到 对 象 ”错误 的 一 个 常见 原因 。 如 果 明 
到 这 种 类 型 的 错误 ， 应 该 首先 检查 出 现 错误 的 对 象 名 称 的 正确 性 。 
1.2.3 向 量 

向 量 是 R 中 最 基本 的 数据 对 象 。 甚 至 当 把 单一 数字 赋 给 一 个 对 象 (例如 x<-45.3) 时 ， 也 就 
创建 了 一 个 包含 单个 元 素 的 向 量 。 所 有 对 象 都 有 模式 (mode) 和 长 度 属性 。 模 式 决定 了 存储 在 对 
象 中 的 数据 类 型 。 向 量 用 来 存储 一 组 基本 类 型 相同 的 数据 。R 的 主要 基本 数据 类 型 是 字符 型 9、 
还 辑 型 、 数 慎 型 、 复 数 型 。 因 此 ， 向 量 可 以 是 字符 型 、 逻 辑 值 型 (T、F, 或 者 FALSE, TRUE)°, 
数值 型 和 复数 型 。 一 个 对 象 的 长 度 是 它 含 有 元 素 的 数量 ,可 以 用 length( ) 函数 来 获取 。 6 

在 大 名 数 情况 下 ， 使 用 长 度 大 于 1 的 向 量 。 可 以 在 R 中 使 用 c() 函数 和 相应 的 参数 来 创建 
一 个 向 量 : 

>v €- c(d, 7, 23.5, 76.2, 80) 

Vv 


[1] 4.0 7.0 23.5 76.2 80.0 
> length(v) 

[1] 5 

> mode(v) 


[1] "numeric" 


o ”R 的 字符 型 数据 事实 上 是 一 组 字符 ， 而 不 是 你 可 能 认为 的 单个 字符 ， 这 在 其 他 编程 语言 中 常常 称 为 字符 申 类 型 。 
号 ”注意 到 R 中 的 名 称 是 大 小 写 敏感 的 。 因 此 ，True 不 是 一 个 有 效 的 运 辑 值 。 
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一 个 向 量 的 所 有 元 素 都 必须 属于 相同 的 模式 。 如 果 不 是 ，R 将 强制 执行 类 型 转换 。 下 面 就 是 


这 样 的 一 个 例子 : 


> v <- c(4, 7, 23.5, 76.2, 80, "rrt") 
»v 


[1] "4" — "7" "23.5" "76.2" "B0" "rrt" 
向 量 的 所 有 元 素 已 转换 为 字符 模式 。 字 符 值 是 由 单 引 号 或 双 引 号 包含 的 字符 串 。 
所 有 向 量 可 以 包含 一 个 特殊 值 ， 即 NA ， 该 值 代 表 缺 失 值 : 


> u <- c(4, 6, NA, 2) 
^u 


[1] 4 6 NA 2 


> k <- c(T, F, NA, TRUE) 
>k 


[1] TRUE FALSE “NA TRUE 

HATSARI, TAA AEEA ENR: 

> v[2] 

[i] "7" 

EAST eae — Trou. ERM 1.27 节 中 ， 我 们 将 学 习 使 用 索引 向 量 来 获得 更 


强大 的 索引 方法 。 


通过 使 用 相同 的 索引 策略 ， 可 以 改变 一 个 特定 向 基 元 素 的 值 。 


> v[1] <- "hello" 
^v 


[1] "hello" "7" "23.5" "76.2" "B0" "rrt" 
R 允许 创建 空 问 量 : 
> x €- vector() 


如 果 使 用 不 存在 的 索引 来 添加 向 量 元 素 ， 就 可 以 改变 向 量 的 长 度 。 例 如 ， 创 建 室 向 量 z 后 ， 


可 以 输入 


> x[3] <- 45 
>x 


[1] NA NA 45 
注意 ， 回 量 的 前 两 个 元 素 有 未 知 的 值 NA。 这 种 灵活 性 是 有 代价 的 。 与 其 他 编程 语言 不 同 ， 


MARE R 中 使 用 一 个 不 存在 的 向 量 位 置 ， 不 会 得 到 错误 : 


> length(x) 
[1] 3 

> x[10] 

[1] NA 


» x[5] «- 4 
^x 


(1] NA NA 45 NA 4 
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为 了 缩小 向 量 的 大 小 ， 可 以 利用 之 前 提 到 过 的 赋值 运算 的 破坏 性 性 质 ， 例 如 
> v <- c(45, 243, 78, 343, 445, 44, 56, 77) 
^v 


[1] 45 243 TB 343 445 44 56 T7 


> y <- c(v[5], v[7]) 

v 

[i] 445 56 

尽管 将 在 1.2.7 节 学 习 使 用 更 强大 的 索引 方法 ， 但 这 里 仍然 可 以 用 一 个 简单 的 方法 删除 向 量 
的 特定 元 素 。 Lo] 
1.2.4 向 量化 

R 语言 最 强大 的 方面 之 一 就 是 函数 的 向 量化 。 这 些 函 数 可 以 直接 对 向 量 的 每 个 元 素 进行 操 
fe, PIW: 

> y €- c(4, 7, 23.5, 76.2, 80) 


> x <- sqrt(v) 
x 


[i] 2.000000 2.645751 4.847680 8.729261 8.944272 


sqt() BEEÉGIPARSoaMEEJH B.ixwBSF, ERE BIIEIEXTES itio 
p rl HH — 1 538 A SCR IRE ERHARD, SRR 203 Jc e A A S8 IR SRA 
量 的 相应 元 素 得 到 的 结果。 

也 可 以 利用 R 的 这 个 特性 进行 问 量 的 算术 运算 : 

> vi «- c(4, 6, 87) | 

> v2 «- c(34, 32.4, 12) 

> vl + v2 

[1] 38.0 38.4 99.0 

如 果 两 个 向 量 的 长 度 不 同 ， 向 量 应 该 如 何 运 算 呢 ? R 将 使 用 循环 规则 ， 该 规则 重复 较 短 的 向 
量 元 素 ， 直 到 得 到 的 向 量 长 度 与 较 长 向 量 的 长 度 相 同 。 例 如 ， 

> vi <- c(d, 6, 8, 24) 

> v2 <- c(10, 2) 

> vil + v2 

[1] 14 8 18 26 


它 是 把 向 量 (10,2) 扩 充 为 c(10,2,10,2)。 如 果 较 长 向 量 的 长 度 不 是 较 短 癌 量 的 整数 倍 ， 


则 R 给 出 警告 ; 
> vi <- c(4, 6, 8, 24) 
> v2 <- c(10, 2, 4) 
> yl + v2 


[ 14 8 12 34 
Warning message: 
In vi + v2 : 
longer object length is not a multiple of shorter object length 
循环 规则 已 经 应 用 ， 运 算 也 完成 了 。( 这 里 只 是 给 出 一 个 警告 ， 而 不 是 错误 1) 
如 前 所 述 ， 单 个 数字 在 R 中 表示 为 长 度 为 1 的 向 量 。 这 种 表示 在 下 面 的 运算 中 非常 方便 : 
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> vi <- c(4, 6, 8, 24) 

> 2 * vi 

[1] 8 12 16 48 

注意 ， 数 字 2 (实际 上 是 向 量 e(2)1) 被 循环 ， 导 致 v1 的 所 有 元 素 乘 以 2。 正 如 我 们 将 看 到 
的 ， 这 种 循环 规则 也 适用 于 其 他 的 对 人 象 ， 如 数组 和 矩阵 。 
1.2.5 AF 

因子 提供 了 一 个 简单 而 又 紧凑 的 形式 来 处 理 分 类 (名 义 ) 数据 。 因 子 用 水 平 来 表示 所 有 可 
能 的 取 值 。 如 果 数 据 集 有 取 值 个 数 固定 的 名 义 变量 ,因子 就 特别 有 用 。 下 面 的 章节 将 要 学 习 的 多 
个 图 形 函 数 和 汇总 函数 就 应 用 了 因子 的 这 种 优点 。 对 用 户 来 说 ， 这 种 使 用 和 显示 因子 数据 的 方 
式 显然 是 易于 理解 的 ， 而 R 软件 内 部 以 数值 编码 方式 来 存储 因子 值 ， 这 将 大 大 提高 内 存 的 利用 
效率 。 

下 面 举例 说 明 如 何在 R 中 创建 因子 。 假 设 有 一 个 10 个 人 的 性 别 向 量 : 

> g<- c("f", "m", "m", "m", "f", "m", "f", "m", "f", aufm) 

>g 

[1] "Z" "m" "m" "n" "f" "n" "£" "m" "f" "f" 

你 可 以 把 这 个 向 量 转换 为 一 个 因 于 : 

> g <- factor(g) 

^g 

[1] fn mmfmfnff 

Levels: f m 

注意 ， 得 到 的 不 再 是 一 个 字符 向 量 。 上 面 提 到 ， 实 际 上 这 些 因子 在 R 内 部 表示 为 数值 向 量 ” 。 
在 这 个 例子 中 ， 因 子 有 两 个 水 平 , “人 和 “m'， 在 及 内 部 分 别 表示 为 1 和 2。 然 而 ， 你 不 需 
要 关心 这 个 内 部 表示 ， 因 为 你 可 以 使 用 “原始 的 ”字符 值 ，R 在 显示 因子 时 也 使 用 这 种 字符 
方式 。 因 此 ， 出 于 效率 的 考虑 ，R 因子 的 编码 转换 是 用 户 透 明 的 。 

假设 有 另外 5 个 人 ,需要 把 他 们 的 性 别 信 息 存 储 在 男 一 个 因子 对 象 中 。 假 设 他 们 都 是 男 

[11] 性 。 如 果 仍 然 需 要 这 个 因子 对 象 与 对 象 g 有 两 个 相同 的 因子 水 平 ， 则 必须 使 用 以 下 命令 : 


> other.g <- factor(c("m", "m", "m", "m", "m"), levels = c("f", 
* "n")) 
> other.g 


[1] nm m m m 

Levels: f m 

如 果 没 有 在 输 和 参数 中 设 定 levels 参数 ， 因 子 other. g 将 只 有 一 个 水 平 (‘m’), 

在 RR 这 样 的 函数 型 编程 语言 中 ， 最 常见 的 应 用 明 数 的 方式 之 一 就 是 像 上 例 中 的 函数 复合 
方式 。 它 是 把 函数 (factor( ) ) 应 用 到 另 一 个 函数 (c()) 的 结果 。 显 然 ， 我 们 可 以 首先 把 函 
Mel) 的 结果 赋值 给 一 个 对 象 ， 然 后 再 用 该 对 象 调用 factor( ) 函数 。 然 而 ， 这 会 更 麻烦 并 且 
创建 多 杂 对 和 象 也 会 浪费 内 存 ， 因 此 人 们 经 常 使 用 这 种 函数 复合 。 函 数 复 合 的 缺点 是 ， 它 给 不 
熟悉 这 种 函数 复合 的 用 户 带 来 阅读 困难 。 

利用 因子 类 型 数据 ， 可 以 做 的 事情 之 一 是 计算 每 个 可 能 值 的 发 生 次 数 。 例 如 : 


S ”可 以 通过 输 人 mode(g) 来 确认 这 一 点 。 


Wim wm 介 "9 


> table(g) 


gi F^ UN 


m 
b 


» table(other.g) 


other.g 

fn 

0 6 

table( ) EET LL FH TF 3E CAE DSL B S6 303€ v BM E a 存储 10 个 人 所 属 的 年 龄 ， 
那么 可 以 得 到 这 两 个 向 量 的 交叉 表 ; 

> a «- factor(c('adult!,'adult','juvenile','juvenile','adult','adult', 

* 'adult','juvenile','adult','juvenile')) 

> table(a,g) 


E 


a fn 
adult 4 2 
juvenile 1 3 


你 可 能 已 经 广 意 到 有 的 行 是 以 一 个 “+ ”号 开始 ， 当 一 行 代码 太 长 ， 你 决定 在 命令 完成 [ 12 | 
之 前 男 起 一 个 新 行 ( 按 “ 回 车 ” 键 ) 时 ， 就 会 使 用 “+ ”号 ， 这 时 候 由 于 上 一 行 没 有 完 ， 所 
以 R 在 新 起 的 一 行 以 ” +” 开始 ， 它 是 新 行 继续 提示 符 。 要 记 住 的 是 ， 新 行 继 续 提 示 符 不 是 
输入 的 ! 它们 是 由 R (如 正常 提示 符 “>”) 自动 输出 的 。 

有 时 候 ， 我 们 希望 计算 列 联 表 的 边际 和 相对 频率 。 下 面 给 出 了 上 面 数据 集 的 性 别 和 年 龄 
因子 的 总 计 ; 

> t <- table(a, g) 

> margin.table(t, 1) 


a 
adult juvenile 
6 4 


> margin.table(t, 2) 
E 


fm 
55 
函数 的 输 人 参数 “1” 和 “2” 分 别 代 表 列 联 表 的 第 一 个 和 第 二 个 维度 ， 即 表 上 的 行 和 列 。 
每 个 维度 边际 和 总 计 的 相对 频率 如 下 : 
> prop.table(t, 1) 
E 
a f m 


adult 0.6666667 0.3333333 
juvenile 0.2500000 0.7500000 


» prop.table(t, 2) 


10 * 


[13 | 
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juvenile 0.2 0.6 


» prop.table(t) 


a I m 
adult 0.4 0.2 
juvenile 0.1 0.3 


ER, ün Ed BA E, TUAW ARAN BL 100, 


1.2.6 生成 序列 


R 提供 了 多 种 生成 不 同类 型 序列 的 方法 。 比 如 ， 创 建 一 个 包含 1 ~ 1000 所 有 整数 的 向 量 ， 


可 以 简单 地 输入 


> x <= 1:1000 


就 创建 了 一 个 名 为 x 的 向 量 , 向 量 x 包 含 了 1000 个 元 素 ， 即 1 ~ 1000 的 所 有 整数 。 


注意 运算 符 “:” 的 优先 级 ， 我 们 通过 下 面 的 例子 来 说 明 这 个 问题 : 
» 10:15 - 1 


[1] 9 10 11 12 13 14 

> 10: (15 - 1) 

[1] 10 11 12 13 14 

这 里 需要 理解 第 一 个 命令 的 结果 ( 记 住 循环 规则 ) ,“:” 的 优先 级 高 于 减法 “- "。 


同样 ， 可 以 生成 如 下 的 递减 序列 : 
> 5:0 


[1] 543210 
可 以 利用 函数 seq( ) 生成 实数 序列 ， 比 如: 
> seq(-4, 1, 0.5) 


[1] -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 


生成 了 从 -4 ~1、 以 0. 5 为 增 量 的 一 个 实数 序列 。 函 数 seq( ) 还 有 其 他 功能 ”。 下 面 举例 说 明 
seq( ) 因数 的 其 他 功能 : 


> seq(from = 1, to = 5, length = 4) 

[1] 1.000000 2.333333 3.666667 5.000000 
> seq(from = 1, to = 5, length = 2) 

[1] 15 

> seq(length = 10, from = -2, by = 0.2) 


[1] -2.0 -1.8 -1.6 -1.4 -1.2 -1.0 -0.8 -0.6 -0.4 -0.2 
你 可 能 已 经 注意 到 ， 在 上 面 的 例子 中 , 在 函数 调用 中 可 以 有 不 同 的 方式 给 出 函数 参 


数 一 一 先 给 出 参数 名 ， 再 给 出 该 参数 需要 使 用 的 特定 参数 值 。 因 此 ， 当 我 们 使 用 带 有 多 个 参 


O 你 可 以 通过 在 R 命令 窗口 输入 “? seq” 得 到 函数 seqt ) 的 帮助 信息 。 通 过 阅读 函数 seq( ) 的 帮助 文档 ， 可 


以 更 好 地 理解 和 擎 握 郴 数 seq). 的 参数 和 其 他 阔 数 形式 。 


第 1 章 m fll 


数 且 大 部 分 参数 都 采用 默认 值 的 函数 时 ， 这 将 非常 方便 。 一 旦 这 些 参 数 默认 值 满足 我 们 的 需 
要 ,我 们 就 可 以 避免 人 为 地 指定 设置 这 些 参 数 。 但 是 ， 如 果 这 些 默 认 值 不 适用 于 我 们 的 问题 ， 
那么 我 们 就 需要 提供 其 他 可 选 值 。 如 果 没 有 像 上 面 例 子 那样 通过 参数 名 设 定 参 数 ， 则 需要 根 
据 参 数位 置 来 设 定 参数 值 。 如 果 想 要 改变 的 默认 值 参 数 是 函数 的 最 后 参数 之 一 ， 那 么 根据 参 
数位 置 设 定 将 要 求 对 该 参数 之 前 所 有 的 参数 值 进行 设 定 ， 不 管 是 否 使 用 的 是 参数 的 默认 值 ”。 
因为 在 设 定 参 数值 时 给 出 了 参数 的 名 称 ， 所 以 接 名 称 设 定 参 数 可 以 在 函数 调用 中 改变 参数 的 
顺序 。 

男 一 个 产生 具有 某 种 异 式 序列 的 有 用 函数 是 rep( ) we. Ei: 

> rep(5, 10) 

[1] 5555555555 

> rep("hi", 3) 

[1] "hi" "hi" "hi" 

^ rep(1:2, 3) 

[1] 121212 

> rep(1:2, each = 3) 

[1] 1311222 

gl() PRSE RT FIT E RU PA a. PRES gl(k, n), JErP k JE DIT KE 
的 个 数 ，n 是 每 个 水 平 的 重复 数 。 这 里 举 两 个 例子 :; 

> gl(3, 5) 


[(1]111112222233333 
Levels: 12 3 


> gl(2, 5, labels = c("female", “male")) 


[1] female female female female female male male male male male 
Levels: female male 


Ria, Ro d REA [o] RE S dr HE p HORE ^E RN, BECUL FF 31] eR, OE A a FRE As 
ffi rfunc(n, parl, par2, =), HP func 是 概率 分 布 的 名 称 ， 是 要 生成 的 随机 数 的 个 
XX, parl, par2, ，… 是 概率 密度 函数 所 需要 的 一 些 参 数值 。 例 如 ， 可 以 产生 10 个 服从 均值 
为 0、 标 准 差 为 1 的 正 态 分 布 的 随机 数值 : 

> rnorm(10) 

[1] -0.74350857 1.14875838 0.26971256 1.06230562 -0.46296225 

[6] -0.89086612 -0.12533888 -0.08887182 1.27165411 0.86652561 

为 了 产生 4 个 服从 均值 为 0、 标 准 差 为 3 的 正 态 分 布 的 随机 数值 ， 可 以 使 用 

> rnorm(4, mean = 10, sd = 3) 

[1] 5.319385 15.133113 28.449766 10.817147 


为 了 获得 5 个 服从 自由 诬 为 10 的 :分 布 的 随机 数值 ， 可 以 输 人 


已 ”实际 上 ， 我 们 可 以 简单 地 使 用 逗号 直到 达到 我 们 所 期 望 的 位 置 ， 如 seq(1 ,4, ,40) 。 
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EFA 


> rt(5, df = 10) 


[1] -1.2697062 0.5467355 0.7979222 0.4949397 0.2497204 

R 有 更 多 的 概率 函数 ， 以 及 其 他 获取 概率 密度 、 累 计 概率 和 这 些 分 布 的 分 位 数 函 数 。 
1.2.7 KETE 

前 面 例 子 中 提 到 ， 可 以 在 方 括号 内 放 人 元 素 的 位 置 来 获得 向 量 中 的 某 个 元 素 。R 也 允许 
在 方 括号 中 使 用 向 量 。R 有 多 种 类 型 的 索引 向 量 。 逻 辑 索 引 向 量 可 以 提取 相应 于 真 值 的 元 紊 。 
让 我 们 来 看 一 个 具体 的 例子 : 

> x <- c(0, -3, 4, -1, 45, 90, -5) 

»>x > 0 

[1] FALSE FALSE TRUE FALSE TRUE TRUE FALSE 

上 面 显示 的 第 二 个 命令 是 逻辑 条 件 。 由 于 x 是 向 量 ， 所 以 将 向 量 中 所 有 的 元 素 与 0 进行 比 
较 ，( 这 里 应 用 了 循环 规则 1) 产生 一 个 长 度 与 向 量 x 相同 的 逻辑 值 向 量 。 如 果 使 用 该 逻辑 值 
向 量 对 x 进行 索引 ， 就 可 以 得 到 相应 TRUE 值 位 置 的 问 量 x 的 元 素 : 


> x[x > 0] 


[1] 4 45 90 

上 面 代 码 可 以 这 样 理解 : 给 出 逻辑 表达 式 为 真 的 x B9 v E. ER, KEWARBRASH 
另 一 个 例子 ， 函 数 复合 在 本 书 中 应 用 得 相当 频繁 。 利 用 R 中 的 逻辑 运算 符 ， 可 以 使 用 重复 杂 
的 逻辑 索引 回 量 ， 例 如 : 

> x[x <= -2 | x > 5] 

[1] -3 45 90 -5 

> x[x > 40 & x < 100] 

[1] 45 90 

你 可 能 已 经 狂 到 :“ 1" CGARRRBBM, “O BARRERES., RRA, B—t 
命令 要 求 小 于 等 于 -2, 或 者 大 于 5 的 x 的 元 素 。 第 二 个 例子 表示 大 于 40 同时 小 于 100 的 x 中 
的 所 有 元 素 。 i 

R 还 可 以 使 用 整数 向 量 来 提取 癌 量 中 的 多 个 元 素 ， 索 引 回 量 中 的 数字 表示 提取 的 元 素 在 
原 向 量 中 的 位 置 。 例 如 ， 

> x[c(4, 6)] 

[1] -1 90 

» x[1:3] 

[1] 0-3 4 


> x[y] 


[1] 0 -1 


o R 也 有 替代 上 面 单 运算 符 的 双 运 算 符 ， 即 && 和 1 1 ， 它 们 执行 相同 的 运算 。 这 两 个 替代 运算 符 从 左 到 右 来 计 
算 表 达 式 ， 并 且 只 检验 向 量 的 第 一 个 元 素 ， 而 单字 符 运算 符 则 检验 向 量 的 每 个 元 素 。 
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另外 ， 也 可 以 使 用 一 个 负 值 的 案 引 向 量 来 表示 哪些 元 素 可 以 排除 。 例 如 : 
> x[-1] 

[1] -3 4 -1 45 90 -5 

> x[-c(4, 6)] 

[i] 0 -3 4 45 -5 

> x[-(1:3)] 

[i] -1 45 90 -5 


注意 ， 在 上 面 的 第 三 个 例子 中 ， 由 于 运算 符 “:” 的 优先 级 较 高 ， 所 以 我 们 使 用 了 括号 。 

可 以 通过 R 函数 names( ) 来 给 同 量 中 的 元 素 命 名 。 对 于 命名 的 向 量 元 素 ， 可 以 通过 字符 
串 向 量 来 进行 索引 。 由 于 命名 的 元 素 位 置 更 容易 记 住 ， 所 以 有 时 候 命名 元 素 更 受 欢 迎 。 例 如 ， 
在 5 个 不 同 的 地 方 测量 了 一 个 化 学 参数 的 测量 值 向 量 。 可 以 创建 如 下 的 命名 向 量 : 


> pH <- c(4.5, 7, 7.3, 8.2, 6.3) 
> names(pH) <- c("areai", "area2", "mud", "dam", "middle") 
> pH 
areal  area2 mud dam middle 
4.5 7.0 7.3 8.2 6.3 


实际 上 ， 如 果 在 创建 向 量 时 ， 已 经 知道 向 量 中 位 置 的 名 称 ， 那 么 下 面 的 方式 更 简单 : 
> pH <- c(areal = 4.5, area? = 7, mud = 7.3, dam = 8.2, middle = 6.3) 


现在 可 以 使 用 上 面 给 出 的 名 称 对 pH 向 量 进行 索引 : 
> pH["mud"] 


mud 
T.3 


> pH[c("areali", "dam")] 


areal dam 
4.56 8.2 


最 后 ， 当 索引 为 空 时 ， 表 示 所 有 的 元 素 都 被 选 定 。 空 索引 表示 是 在 选择 过 程 中 没有 限制 
条 件 。 例 如 ， 需 要 给 一 个 向 量 赋 予 零 值 ， 那 么 可 以 简单 地 写成 “x[] <-0"。 注 意 ， 这 与 
“x<-0” 不 同 。 后 一 种 情况 表示 把 含有 单一 元 素 (F) 的 向 量 赋 给 x， 而 前 面 一 种 情况 CB 
设 之 前 存在 向 量 *) 将 会 使 得 向 量 x 的 所 有 元 素 都 变 成 零 。 试 一 下 这 两 种 代码 1 [18 | 
1.2.8 RMA 


数据 元 素 可 以 保存 在 具有 多 个 维度 的 对 象 中 。 在 多 种 情况 下 这 尤其 有 用 。 数 组 存储 的 是 
多 维 数 据 元 素 。 和 矩阵 是 数组 的 特殊 情况 ， 它 具有 两 个 维度 。 在 R 中 ， 数 组 和 和 拖 阵 都 是 带 有 维 
度 这 个 特定 属性 的 向 量 。 假 设 有 一 个 数值 向 量 c(45, 23, 66, 77, 33, 44, 56, 12, 78, 
23), ， 下 面 把 这 10 个 数值 组 织 为 一 个 矩阵 : 

>m <- c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23) 

»m 


[1] 45 23 66 77 33 44 56 12 78 23 


» dim(m) «- c(2, 5) 
»m 
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[,1] [,2] [,3] [,4] [,5] 
[1,] 45 66 33 56 78 
[2,] 23 77 4 12 23 


注意 ， 数 值 如 何 分 配 到 这 个 2 行 5 列 的 矩阵 中 (这 里 用 函数 dim( ) 来 给 维度 m RB). 
其 实 ， 可 以 使 用 更 简单 的 命令 来 创建 该 矩阵 : 


> m <- matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 
* 5) 


你 可 能 已 经 注意 到 ， 向 量 中 的 数据 通过 和 矩阵 中 的 列 进行 扩展 。 首 先 ， 将 数据 填 到 第 一 列 ， 
然后 填 到 第 二 列 ， 以 此 类 推 。 可 以 通过 设 定 函数 matrix( ) 的 参数 来 按 行 填充 和 矩阵: 


> m <= matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 
* 5, byrow = T) 
»m 


[,1] [,2] [,3] [,4] [,5] 
[1,] 45 23 66 77 33 
[2,] 44 56 12 78 23 


如 和 矩阵 的 显示 所 示 ， 可 以 通过 类 似 于 向 量 中 的 索引 方法 来 访问 怎 阵 的 元 素 ， 但 现在 需要 
两 个 索引 (矩阵 的 维度 ) : 
> m[2, 3] 


[1] 12 
可 以 利用 1. 2. 7 节 所 描述 的 索引 方法 来 提取 和 矩阵 中 的 元 素 ， 如 下 面 的 例子 所 示 : 
> m[-2, 1] 


[1] 45 

> m[1, -c(3, 5)] 

(1] 45 23 77 

此 外 ， 如 果 忽 略 了 任 一 维度 ， 将 会 得 到 矩阵 的 所 有 行 或 列 : 
> m[1, ] 

[1] 45 23 66 77 33 

> m[, 4] 


[1] 77 78 


注意 ， 在 上 面 两 个 例子 中 ， 作 为 数据 子 集 ， 得 到 的 结果 可 能 是 一 个 向 量 。 如 果 需 要 得 到 
的 结果 仍然 是 一 个 矩阵 ， 那 么 即使 它 是 一 个 1 行 或 者 1 列 的 矩阵 ， 都 可 以 使 用 下 面 的 命令 : 
> m[1, , drop = F] i 


[,1] [,2] [,3] [,4] [,5] 
[1,] 45 23 66 77 33 


> m[, 4, drop = F] 


[,1] 
[1,] 77 
[2,] 78 


函数 cbind( ) 和 rbind( ) 可 以 分 别 按 列 和 行 用 把 两 个 或 两 个 以 上 的 向 量 或 矩阵 合并 在 一 
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起 。 我 们 通过 下 面 的 例子 来 说 明 这 一 点 : 


> mi <- matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 
+ 5) 
> mi 


[,1] [,2] (,3) £,4] [,5] 
[1,] 45 66 33 56 78 
[2,] 23 77 44 12 23 


> cbind(c(4, 76), mil, 4]) 


[,1] [,2] 
[1,] 4 56 
[2,] 76 12 


> m2 <- matrix(rep(10, 20), 4, 5) 
> m2 


[,1] [,2] [,3] L,4] [,5] 
[1,] 10 10 10 10 10 
[2,] 10 10 10 i0 10 
[3,] 10 10 10 10 10 
[4,] 10 10 10 10 10 


> m3 <- rbind(mi[1, ], m2[3, ]) 
> m3 


[,1] L,2] [,3] L,4] E,5] 
[1,] 45 66 33 56 78 
[2,] 10 10 10 10 10 
384i 1415 8T LIEH pa colnames( ) 和 rownames() 分 别 给 矩阵 的 行 和 列 命 名 ， 这 样 有 利于 
记 住 数据 的 位 置 。 


> results <- matrix(c(10, 30, 40, 50, 43, 56, 21, 30), 2, 4, 
* byrow * T) 

> colnames(results) <- c("1igrt", "2qrt", "3qrt", "4qrt") 

> rownames(results) <- c("storei", "store2") 

» results 


iqrt 2qrt 3qrt 4qrt 
storel 10 30 40 50 
store2 43 66 21 30 


> results["storei", ] 


igrt 2qrt 3qrt 4qrt 
10 30 40 #650 


> results["store2", c("1grt", "4qrt")] 
igrt 4qrt 
43 30 | 
数组 是 矩阵 的 扩展 ， 它 把 数据 的 维度 扩展 到 两 个 以 上 。 这 意味 着 数组 中 的 元 素 需 要 两 个 


以 上 的 索引 。 除 此 之 外 ， 数 组 与 矩阵 类 似 ， 可 以 用 相同 的 方法 使 用 。 与 函数 matrix() 类 似 ， 
可 以 通过 函数 array( ) 方便 地 创建 数组 。 下 面 是 应 用 函数 array( ) 的 一 个 例子 ， 
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> a «- array(1:24, dim = c(4, 3, 2)) 


> B 
i i 1 

L,j1] L,2] L,3] 
[1,] 1 5 9 
[2,] 2 6 10 
[3,] 3 7 11 
[4,] 4 8 12 
i i 2 


[,1] [.2] (,3] 
[i,] 13 17 21 
[2,] 14 18 22 
[3,] 15 19 23 
[4,] 16 20 24 


我 们 可 以 使 用 与 向 量 索引 同样 的 方法 访问 数组 中 的 元 素 ， 如 下 面 例 子 所 示 。 
> a[1, 3, 2] 

[1] 21 

» a[1, , 2] 

[1] 13 17 21 

> a[4, 3, J 

[1] 12 24 

> a[c(2, 3), , -2] 


[,1 (,2) L,3] 
[1,] 2 6 10 
(2,] 3 T 11 


尽管 有 时 候 理解 起 来 有 些 困 难 ， 但 循环 规则 和 算术 运算 规则 同样 适用 于 矩阵 和 数组 。 下 
面 是 几 个 例子 ; 
> m <- matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 


* 5) 
- m. 


[,1] [,2] L,3] L,4] [,5] 
[i,] 45 66 33 56 78 
[2,] 23 77 44 12 23 


>2m* 3 


[,1] E,2] L,3] [,4] [,5] 
[1,] 135 198 99 168 234 
[2,] 69 231 132 36 69 


> mi <- matrix(c(45, 23, 66, 77, 33, 44), 2, 3) 
> mi 


Sin wm 7e 


[,1] [,2] [,3] 
[1,] 45 66 33 
[2,] 23 77 44 


> m2 <- matrix(c(12, 65, 32, 7, 4, 78), 2, 3) 
> m2 


[,1] [,2] [,3] 
[1,] 12 32 4 
[2,] 65 7 78 


> mi + m2 


[,1] L,2] L,3] 
(1, 657 98 37 
[2,] 88 84 122 


RBA T mE BER Re RRR, PURER 随机 文档 “R 简介 ”的 第 五 节 
以 获取 和 矩阵 运算 的 更 多 信息 。 
1. 2.9 列表 

R 列表 是 以 其 他 对 象 为 成 分 的 有 序 集合 。 列 表 的 成 分 和 向 量 的 元 素 不 同 ， 它 们 不 一 定 是 
同一 种 数据 类 型 、 模 式 或 者 相同 长 度 。 列 表 的 成 分 总 是 编号 的 并 且 有 一 个 名 称 属 性 。 下 面 用 
一 个 简单 例子 来 说 明 如 何 构造 一 个 列表 : 


» LN lst <- list(stud.id*34453, 
etud. name=" Jobn", 
+ stud.marks=c(14.3,12,15,19)) 


对 象 my. lst 由 三 个 成 分 组 成 : 第 一 个 是 名 称 为 stud. id 的 数值 ; 第 二 个 是 名 称 为 stud. name 
的 字符 串 ; 第 三 个 是 名 称 为 stud. marks 的 数值 向 量 。 
和 查看 其 他 R 对 象 一 样 ， 通 过 输入 列表 的 名 称 来 查看 该 列表 的 内 容 ， 例 如 


> my.lst 


$stud.id 
[1] 34453 


$stud.name 
[1] "John" 


$stud.marks 

[1] 14.3 12.0 15.0 19.0 

AY VAs xb F 853 9173 18 BY BS AY OUR : 
> my.1st[[1]] 

[1] 34453 

> my.lst[[3]] 


[i] 14.3 12.0 15.0 19.0 
注意 ， 上 例 中 应 用 了 双方 括号 。 如 果 应 用 命令 my. lst[ 1] ， 那 么 将 会 得 到 不 同 的 结果 : 
> my.1lst[1] 


$stud.id 
[1] 34453 


17 


22 


24 
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第 二 个 命令 获取 列表 my. lst 的 第 一 个 成 分 构成 的 子 列表 。 相 反 ，my. lst[ [1]] 提取 列表 


的 第 一 个 组 件 的 值 (在 这 种 情况 下 是 一 个 数 ) ， 结 果 将 不 再 是 一 个 列表 ， 如 下 所 示 : 


> mode(my.1st[1]) 

[1] "list" 

> mode(my.1st[[1]]) 

[1] "numeric" 

对 于 含有 命名 成 分 的 列表 (如 上 例 所 示 )， 可 以 用 男 一 种 方式 来 提取 列表 成 分 的 值 : 
> my.lst$stud.id 

[1] 34453 

列表 成 分 的 名 称 实 际 上 是 列表 的 一 个 属性 ， 它 可 以 像 向 量 元 素 名 那样 进行 操作 : 

> names (my.1lst) 


(1] "stud.id" "stud.name"  "stud.marks" 


> names(my.lst) <- c("id", "name", "marks") 
> my.lst 


$id 
[1] 34453 


$name 
[1] "John" 


$marks 
(1] 14.3 12.0 15.0 19.0 


也 可 以 通过 添加 附加 元 束 的 方式 来 扩展 列表 


> my.lst$parents.names <- c("Ana", "Mike") 
» my.lst 


$id 
[1] 34453 


$name 
[1] "John" 


$marks 
[1] 14.3 12.0 15.0 19.0 


$parents.names 
[1] "Ana" "Mike" 


nj AERAR length( ) 来 检查 列表 成 分 的 个 数 : 
> length(my.lst) 

[1] 4 

也 可 以 如 下 所 示 来 剿 除 列表 的 成 分 ; 

> my.lst «- my.lst[-5] 

也 可 以 通过 函数 c( ) 来 合并 列表 
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> other «- list(age = 19, sex = "male") 
> Ist <- c(my.lst, other) 
> lst 


$id 
[1] 34453 


$name 
[1] " John" 


$marks 
[1] 14.3 12.0 15.0 19.0 


$parents . names 
[1] "Ana" "Mike" 


Sage 
[1] 19 


$sex 

ve "male" 

最 后 ， 可 以 通过 函数 unlist() 把 列表 中 的 所 有 元 素 转 换 为 向 量 元 素 ， 转换 后 的 向 量 元 素 
的 个 数 和 列表 中 所 有 数据 对 象 的 个 数 相 同 。 该 操作 将 把 列表 中 不 同类 型 的 数据 转 为 统一 的 类 
型 > ， 这 意味 着 大 多 数 情况 下 把 所 有 列表 数据 转换 为 字符 型 。 另 外 ， 得 到 的 向 量 元 素 都 有 一 个 
源 目 列表 成 分 的 名 称 : 


> unlist(my.lst) 


id name marksi marks2 marks3 
"34453" "John" "14,3" "12" "15" 
marks4 parents .namesi parents.names2 
"19" "Ana" "Mila" 
. 1.2.10 数据 框 


数据 框 是 R 软件 中 用 于 存储 数据 表 的 一 种 数据 结构 。 它 的 结构 与 二 维 矩 阵 类 似 。 然 而 ， 
与 矩阵 不 同 的 是 ， 数 据 框 的 每 列 可 以 有 不 同 数据 类 型 的 数据 。 在 这 个 意义 上 ,数据 框 和 列表 
更 相似 。 实 际 上 ， 对 R 而 言 ， 数 据 框 是 一 类 特殊 的 列表 。 

可 以 把 数据 框 的 每 一 行 作 为 一 个 观测 值 〈 或 称 为 个 案 ) ， 它 由 一 组 变量 (数据 框 的 命名 
列 ) 来 描述 。 

可 以 用 下 列 方式 来 创建 数据 框 : 

> my.dataset <- data.frame(sitesc(A','B','A','A' ,'B'), 

+ season=c(‘Winter','Summer' ,'Summer' ,'Spring','Fall'),. 

+ pH = c(7.4,6.3,8.6,7.2,8.9)) 

> my.dataset 

site season pH 

i A Winter 7.4 

2 B Summer 6.3 
3 A Summer 8.6 
4 
5 


A Spring 7.2 
B Fall 8.9 


© ”因为 向 量 元 素 的 类 型 必须 相同 ， 秦 见 1. 2.3 节 。 
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可 以 像 矩 阵 那样 访问 数据 框 的 元 素 : 


> my.dataset[3, 2] 


[1] Summer 
Levels: Fall Spring Summer Winter 


注意 ， “season” 列 的 所 有 元 素 为 字符 型 ， 因 而 该 列 被 转换 为 因子 类 型 。 类 似 地 ，“ site” 
列 也 是 因子 类 型 。 这 些 转 换 是 函数 data. frame( ) 的 默认 行为 。 
1.2.7 节 给 出 的 索引 方法 也 适用 于 数据 框 。 另 外 ， 也 可 以 用 列 名 来 获取 数据 框 的 一 列 数据 : 


> my.dataset$pH 


[1] 7.4 6.3 8.6 7.2 8.9 


可 以 利用 R 的 数据 子 集 的 优势 来 方便 地 访问 数据 框 中 的 数据 ， 如 下 所 示 : 
> my.dataset [my.dataset$pH > 7, ] 
Bite season pH 
1 A Winter 7.4 
3 A Summer 8.6 
4 A Spring 7.2 
5 B Fall 8.9 
> my.dataset[my.dataset$site == "A", "pH"] 
[1] 7.4 8.6 7.2 


> my.dataset[my.dataset$season == "Summer", c("site", "pH")] 


25 Site pH 
: 2 B 6.3 
27 3 A 8.6 


可 以 通过 应 用 函数 attach( ) 来 简化 上 面 的 查询 。 郴 数 attach () 可 以 直接 访问 数据 框 的 列 ， 
而 无 需 添 加 相应 的 数据 框 名 : 


> attach(my.dataset) 
> my.dataset[sitesz'B', ] 


site season pH 
2 B Summer 6.3 
5 B Fall 8.9 


> season 


[1] Winter Summer Summer Spring Fall 
Levels: Fall Spring Summer Winter 


PR attach( ) 的 反 向 操作 是 函数 detach( ) ， 它 禁止 直接 访问 数据 框 的 列 。 


> detach(my.dataset) 
> season 


Error: Object "season" not found 


如 果 仅 对 数据 框 进行 简单 的 查询 ， 那 么 应 用 函数 subset( ) 将 十 分 方便 : 


O #24 AR data frame( ) 帮助 文档 中 应 用 蝴 数 1() 的 例子 ,或 者 应 用 参数 stringsAsFactors 来 避免 这 种 强制 转换 。 
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> subset(my.dataset, pH > 8) 


Bite season pH 
3 À Summer 8.6 
5 B Fall 8.9 


> subset(my.dataset, season == "Summer", season:pH) 


season pH 
2 Summer 6.3 
3 Summer 8.6 


和 上 面 的 例子 不 同 ， 不 能 用 取 子 集 的 方式 来 改变 数据 框 中 数据 的 值 。 例 如 ， 如 果 需 要 把 季 他 
J "summer" 的 行 的 pH 值 加 1， 只 能 通过 下 列 方式 进行 : 

> my.dataset [my.dataset$season == 'Summer','pH'] «- 

+ my.dataset [my.dataset$season == 'Summer','pH'] + 1 

与 列表 类 似 ， 可 以 在 数据 框 中 加 入 新 列 : 

> my.dataset$N03 <- c(234.5, 256.6, 654.1, 356.7, 776.4) 


> my.dataset 


site season pH NO3 
1 À Winter 7.4 234.5 
2 B Summer 7.3 256.6 
3 A Summer 9.6 654.1 
4 À Spring 7.2 356.7 
5 B Fall 8.9 776.4 


对 于 加 入 新 列 的 唯一 限制 就 是 新 列 必须 和 已 有 的 数据 框 有 相同 的 行 数 ; 否则 ，R 会 报错 。 可 
以 用 下 列 两 个 函数 来 获得 数据 框 的 行 数 或 列 数 : 


> nrow(my.dataset) 
[1] 5 
> ncol(my.dataset) 
[1] 4 


在 数据 挖掘 的 任务 中 ， 通 常 很 少 需要 用 上 面 提 到 的 data. frame( ) 函数 来 手动 输入 数据 。 一 
般 是 把 来 源 于 文件 或 者 数据 库 的 数据 集 读 人 数据 框 。 在 后 面 的 数据 挖掘 案例 研究 章节 中 ， 你 将 
学 习 如 何 把 数据 导 人 到 数据 框 中 。 无 论 如 何 ， 建 议 你 浏览 R 提供 的 “R 数据 导入 和 导出 ”手册 ， 
了 解 R 所 具有 的 功能 。 

R 有 一 个 类 似 于 电子 表格 的 接口 ， 可 以 用 于 小 型 数据 的 输入 。 可 以 用 下 面 的 方式 来 编辑 一 个 
已 经 存在 的 数据 框 : 


> my.dataset <- edit(my.dataset) 


或 者 可 以 创建 一 个 新 的 数据 框 ， 


> new.data <- edit(data.frame()) 


可 以 用 一 个 名 称 向 量 来 改变 数据 框 的 列 名 : 


> names(my.dataset) 


[1] "site" "season" "pH" "NO3" 
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> names(my.dataset) <- c("area", "season", "pH", "N03") 
> my.dataset 


area season pH NO3 
A Winter 7.4 234.5 
B Summer 7.3 256.6 
A Summer 9.6 654.1 
A Spring 7.2 356.7 
B Fall 8.9 776.4 


因为 数据 框 的 名 称 属 性 是 向 量 ， 所 以 如 果 仅 仅 需 要 改变 数据 框 某 个 特定 列 的 名 称 ， 就 可 以 
输入 : 


> names(my.dataset)[4] «- "PO4" 
» my.dataset 


ofr C tnr 


area season pH P04 
1 A Winter 7.4 234.5 
2 B Summer 7.3 256.6 
3 A Summer 9.6 654.1 
4 A Spring 7.2 356.7 
9 B Fall 8.9 776.4 


最 后 ，R 有 一 些 “ 内 置 ” 的 数据 集 ， 可 以 用 它们 来 学 习 和 探索 R 的 功能 。 大 多 数 的 R 添加 
包 也 有 目 带 的 数据 集 。 为 了 获取 已 有 数据 集 的 信息 ， 可 以 执行 下 列 命令 : 
> data() 
可 以 通过 下 列 方式 来 应 用 已 有 的 数据 集 : 
> data(USArrests) 
上 面 的 命令 “创建 ”了 一 个 名 为 USArrests HAGHE, EEA ARE R 中 相应 问题 的 数 
据 集 。 
1.2. 11 构建 新 函数 
R 允许 用 户 构 造 新 函数 。 当 需要 自动 化 某 些 不 断 重 复 的 任务 时 ， 应 用 有 的 这 一 特性 将 十 分 
有 用 。 每 次 需要 执行 任务 时 ， 可 以 不 用 重 写 任务 指令 ， 可 以 把 这 些 指令 封装 在 一 个 新 函数 中 ， 然 
后 在 必要 时 应 用 该 蚂 数 就 可 以 了 。 
R 沙 数 是 与 前 面 看 到 的 对 象 有 类 似 结构 的 一 种 对 象 。 作 为 对 象 ， 电 数 可 以 存储 值 。 存 储 在 孙 
数 中 的 “ 值 ”是 一 组 指令 ， 当 R 调用 该 函数 时 执行 这 组 指令 。 因 此 ， 为 了 构建 新 函数 ， 需 要 用 
赋值 运算 符 把 果 数 的 内 容 存 储 到 一 个 对 象 名 (ERARA) 中 。 
下 面 举 一 个 简单 的 例子 。 假 设 需要 计算 一 组 数据 的 均值 的 标准 误差 。 根 据 定 义 ， 样 本 均值 的 
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标准 误差 为 
标准 误差 = 。 /三 
这 里 是 样本 方差 ，n 是 样本 大 小 。 
给 定 一 个 数值 向 量 ， 现 在 需要 计算 相应 的 标准 误差 。 先 命名 该 函数 为 se， 在 创建 该 函数 之 
前 ， 我 们 需要 检查 R 中 是 否 已 经 有 -个 同名 的 函数 存在 。 如 果 的 确 有 同名 的 函数 存在 ， 那 么 最 
好 选择 一 个 不 同 的 名 称 ; 否则 ， 会 把 R 中 已 经 存在 的 R 函数 对 用 户 隐藏 起 来 8。 为 了 检查 一 个 函 


© ”这 里 对 用 户 隐 藏 的 R 标准 函数 仍然 是 存在 的 。 但 是 ， 在 搜索 路 径 中 与 它 具 有 相同 名 称 的 用 户 自 定义 函数 位 于 其 
顶部 ， 因 此 “隐藏 ”了 R 的 标准 函数 。 
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数 在 R 中 是 否 已 经 人 存在， 在 R 命令 行 提 示 符 处 输入 函数 名 就 可 以 了 : 


» B8 


Error: Übject "se" not found 


R 给 出 错误 信息 说 明 这 个 名 称 在 R 中 不 存在 ， 可 以 放心 使 用 。 如 果 一 个 名 称 为 se 的 函数 
(或 者 其 他 对 象 ) 已 经 存在 ,那么 R 将 输出 该 对 象 的 内 容 ， 而 不 是 输出 错误 信息 。 
下 面 是 创建 新 消 数 的 一 种 可 能 方式 : 


> se <- function(x) { 

+ v <= var(x) 

+ n <- length(x) 

*  return(sqrt(v/n)) 

+} 

因此 ， 为 了 构建 一 个 函数 对 象 ， 使 用 下 面 的 通用 形式 给 函数 名 赋值 : 


function(<set of parameters») { «set of R instructions» ) 


创建 完成 该 函数 后 ， 可 以 用 下 列 方式 进行 调用 ， 
> se(c(45,2,3,5,76,2,4)) 


(1] 11.10310 


与 上 面 的 se( ) KA tF, MRENA PROBUS EE DUTY AR PRIE, 3B TER ULCMOE A Br VF 
R 该 函数 体 何 时 开始 ， 何 时 结束 。R 用 大 括号 作为 一 组 指令 的 开始 和 结束 的 语法 元 素 。 
任何 函数 的 返回 值 都 可 以 由 薄 数 retum( ) ME, MA R 返回 函数 中 最 后 运算 表达 式 的 结果 。 
下 面 的 函数 演示 了 这 一 点 ， 并 应 用 了 有 默认 值 的 参数 。 [31] 


> basic.stats <- function(x,more-F) { 
+ stats «- list() 


+ 
+  clean.x <- x[!is.na(x)] 

+ 

+  stats$n <- length(x) 

+  stats$nNAs <- stats$n-length(clean. x) 

+ 

+  stats$mean <- mean(clean.x) 

+  stats$std <- sd(clean.x) 

+  stats$med <- median(clean.x) 

+ if (more) { 

+ stats$skew <- sum(((clean.x-stats$mean)/stats$std)^3) / 
* length(clean.x) 

+ stats$kurt <- sum(((clean.x-stats$mean)/stats$std)^4) / 
+ length(clean.x) - 3 

+ } 

+  wunlist (stats) 

+} 


上 述 函 数 的 一 个 参数 (或 多 个 ) 有 默认 值 (F) 。 这 意味 着 调用 该 函数 时 可 以 设置 或 者 不 设 
置 该 参数 。 如 果 调 用 该 函数 时 没有 设 定 第 二 个 参数 的 值 ， 那 么 该 参数 将 应 用 它 的 默认 值 。 下 例 给 
出 了 这 两 种 方式 的 示例 : 

> basic.stats(c(45, 2, 4, 46, 43, 65, NA, 6, -213, -3, -45)) 


n nNÀa mean std ned 
11.00000 1.00000 -5.00000 79.87768 5.00000 
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> basic.stats(c(45, 2, 4, 46, 43, 65, NA, 6, -213, -3, -45), 
* more = T) 


n nNAs mean std med skew kurt 
11.000000 1.000000 -5.000000 79.877684 5.000000 -1.638217 1.708149 


函数 basic. stats( ) 引入 R 的 一 种 新 指令 ; EO) 指令 。 该 指令 可 以 使 某 些 指令 在 逻辑 测试 为 
真 值 时 执行 。 在 上 面 的 例子 中 ， 有 两 行 指令 分 别 计算 向 量 值 的 偏 度 (skew) 和 峰 度 (kurt), 4 
果 变 量 more 的 值 为 真 时 ， 它 们 才 执行 ,否则 ， 它 们 将 被 跳 过 而 不 执行 。 

另 一 个 重要 的 指令 是 for( ) 。 该 指令 允许 一 组 指令 重复 地 执行 多 次 。 下 面 是 应 用 该 指令 的 
例子 : 


> f «- function(x) { 
+ for(i in 1:10) 1 


* ras <- x*i 

十 cat(x,'*',i,'=',res,'\n') 
+ J 

+ } 


试 着 用 某 些 数 调用 函数 f() (例如 f(5))。 上 面 的 函数 中 的 for 指令 告诉 R， 它 后 面 大 括 
号 内 的 指令 需要 执行 多 次 (这 里 为 10 次 )。 也 就 是 说 ， 这 些 指 令 随 着 每 次 i 取 不 同 的 值 而 被 
重复 执行 ，i 的 取 值 为 集合 1: 10， 即 1，2，3，…，10。 它 意味 着 在 for 里 的 指令 将 被 执行 10 
次 ,每 次 i 取 不 同 的 值 。 关 键 词 in 后 面 的 值 可 以 是 任何 向 量 ,， 它们 不 必须 是 序列 或 者 数值 型 。 
函数 cat( ) 用 于 将 多 个 对 象 的 内 容 输 出 到 屏幕 。 也 就 是 说 ， 字 符 型 数据 将 输出 它 自身 GRA 
cat ( 'hello1 1) ) ， 而 其 他 对 象 将 输出 它们 的 内 容 ( 试 运行 y<-45， 然 后 cat(y) ) 。 字 符 串 “\n” 
使 R 换 到 下 一 行 输出 。 

1.2.12 对象、 类 和 方法 

R 的 设计 原则 之 一 是 方便 数据 的 操作 ， 这 样 我 们 就 可 以 容易 地 进行 数据 分 析 任 务 。 在 R 中 ， 
数据 以 对 象 的 形式 存储 。 前 面 提 到 ，R 中 的 一 切 ， 从 简单 的 数值 到 函数 、 或 更 复杂 的 数据 结构 
等 ， 都 是 对 象 。 每 一 个 R 对 象 都 是 属于 一 类 。 类 定义 了 属于 它们 对 象 的 抽象 特征 。 也 就 是 说 ， 
类 定义 了 属于 它们 对 象 的 特征 和 行为 (或 者 方法 ) Hin, BEAK (matrix 类 ) 有 维度 属性 和 针 
对 某 些 运算 的 一 些 特殊 行为 。 事 实 上 ， 当 查询 R 的 矩阵 内 容 时 ，R 在 屏幕 上 以 一 种 特定 的 形式 
输出 矩阵 。 这 是 因为 所 有 来 自 和 矩阵 类 的 对 象 都 有 一 个 相关 联 的 特定 输出 方法 。 总 之 ， 一 个 对 象 所 
属 的 类 将 决定 : 0) 某 些 泛 型 函数 应 用 于 这 些 对 象 时 将 应 用 的 方法 ; 2) 对 象 的 表示 方法 。 对 象 
的 表示 由 存储 在 类 对 象 的 信息 构成 。 

R 有 许多 预定 义 的 对 象 类 和 相关 的 方法 。 基 于 这 些 已 有 的 对 象 类 ， 可 以 创建 新 的 对 象 类 和 新 
方法 。 新 方法 可 以 是 新 类 的 方法 ， 也 可 以 是 已 有 类 的 方法 。 新 类 一 般 建 立 在 已 有 类 的 基础 上 ， 通 
常 它们 在 已 有 类 的 表示 上 添加 新 信息 。 

类 的 表示 由 一 组 格子 构成 。 每 个 格子 有 一 个 名 称 和 决定 它 所 存储 信息 相关 联 的 类 。 运 算 符 
“@ ”用 来 获取 存储 在 对 象 格 子 中 的 信息 。x@y 表示 存储 在 对 象 * 中 的 格子 y 的 值 。 显 然 ， 它 假 

32 | Ex 所 属 的 类 含有 一 个 名 为 y 的 格子 的 信息 。 

另 一 个 与 类 有 关 的 概念 是 类 继承 。 继 承建 立 了 两 个 类 之 间 的 关系 ， 它 允许 在 一 个 已 有 类 上 
添加 额外 的 信息 从 而 扩展 为 一 个 新 类 。 这 种 类 扩展 意味 着 新 类 继承 了 已 有 类 的 所 有 方法 ， 这 将 
大 大 方便 新 类 的 创建 ， 而 不 必 从 头 开始 。 这 时 ， 我 们 仅仅 需要 实现 新 类 中 不 同 于 它 所 扩展 类 的 
操作 。 

最 后 一 个 重要 概念 是 多 态 。 有 些 函 数 可 以 应 用 于 多 个 不 同 的 对 象 类 ， 产 生 相 应 于 该 对 象 类 
的 结果 。 在 R 中 ， 多 态 与 泛 型 函数 紧密 联系 在 一 起 。 泛 型 函数 实现 了 某 些 通用 的 高 级 操作 。 倒 
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如 ， 前 面 用 到 的 函数 plot( ) 可 以 产生 对 得 的 图 形 表示 ， 这 是 该 力 数 的 通用 目的 。 然 而 ， 随 春 对 
象 类 的 不 同 ， 它 们 的 图 形 表 示 实 际 上 是 不 同 的 。 例 如 ， 绘 制 一 组 数值 和 绘制 线性 模型 是 不 同 的 。 
用 户 只 无 需 担 忧 这 点 ， 多 态 性 是 解决 这 种 不 同 的 关键 。 用 户 只 需要 知道 有 函数 会 产生 对 象 的 图 
形 表示 。R 和 它 的 内 部 机 制 负责 调 度 这 些 提供 图 形 表示 的 特定 类 的 通用 函数 。 所 有 这 些 函 数 调度 
的 细节 都 隐藏 在 R 内 部 ， 用 户 无 需 了 解 这 些 琐碎 的 细节 。 事 实 上 ，R 知道 plot( ) 是 一 个 泛 型 函数 ， 
它 搜 索 适 用 于 调用 plot( ) 郴 数 的 类 对 象 的 特定 plot 方法 。 如 果 存 在 这 样 一 个 特定 的 方法 ， 那 么 
R 将 应 用 该 方法 ; 否则 ，R 将 调用 默认 的 绘图 方法 。 当 用 户 决定 创建 一 个 新 的 对 象 类 时 ， 他 们 决 
定 是 否 需 要 该 对 象 类 的 特定 方法 。 因 此 ， 当 他 们 需要 绘制 新 的 类 对 象 时 ， 需 要 提供 该 对 象 类 的 特 
定 绘 图 方法 ， 该 绘图 方法 将 “告诉 、R 如 何 绘制 这 个 新 的 对 象 夫 。 

以 上 是 R 的 类 和 方法 的 基本 概念 。 创 建新 类 和 相应 的 方法 超出 本 书 的 讨论 范围 ， 读 者 可 以 
参考 有 关 R 编程 的 书籍 ， 例 如 Chambers 的 优秀 书籍 《Software for Data Analysis) (2008) , 
1.2.13 管理 R 会 话 

当 用 R 来 解决 复杂 的 问题 时 ， 交 互 式 的 命令 行 方式 就 变 得 很 不 方便 。 这 时 ,实际 的 做 法 是 
把 R 代码 写 人 一 个 文本 文件 中 ,然后 让 R 来 执行 这 些 代 码 。 为 了 生成 这 样 的 文件 ， 可 以 用 你 喜 
欢 的 文本 编辑 希 来 编辑 〈 例 如 记事 本 Emacs 等 ) ， 或 者 在 Windows 操作 系统 中 ， 可 以 使 用 RR 自 
带 的 脚本 编辑 器 ， 它 在 R 软件 的 “文件 ”菜单 中 可 以 找到 。 当 建立 了 代码 文件 并 保存 之 后 ， 可 


以 在 R 命令 行 中 用 下 面 的 命令 来 执行 文件 中 的 所 有 命令 : 


> gource('mycode.R') 


假定 在 当前 工作 目录 中 有 一 个 名 称 为 “mycode. R”“ 的 文本 文件 。 在 Windows 下 ,改变 当前 
工作 目录 的 简单 方法 是 通过 “文件 ”菜单 中 的 “改变 工作 目录 ”选项 。 在 UNIX 操作 系统 中 ， 
可 以 分 别 用 函数 getwd( ) 和 setwd( ) 来 获取 当前 工作 目录 和 改变 当前 工作 目录 。 

在 交互 方式 下 应 用 R 的 命令 行 方式 时 ， 可 能 需要 保存 你 的 对 象 以 备 以 后 应 用 (例如 ， 输 入 
的 函数 ) 。 下 面 的 例子 在 名 称 为 mysession. RData 的 文件 中 保存 了 名 为 f 和 my. dataset 的 两 个 对 象 


> save(f,my.dataset,files'mysession.RData') 


以 后 ， 在 新 的 R 会 语 中 ， 可 以 使 用 下 面 的 命令 来 重新 该 人 这 些 对 象 : 

> load('mysession.RData') 

也 可 以 用 下 面 的 命令 来 保存 当前 R 工作 空间 中 的 所 有 对 象 2 

> save.image() 

上 面 命令 在 当前 工作 目录 中 把 R 工作 空间 保存 为 名 为 “. RData” 的 文件 。 从 该 目录 启动 R 
时 ， 这 个 文件 将 自动 地 载 人 R 中 。 当 R 退出 时 ， 如 果 回 答 “是 "， 也 会 达到 上 面相 同 的 效果 (2 
见 1.2.1 节 )。 

关于 R 的 参考 文献 | 

所 有 版 本 的 及 在 线 手册 《R 简介 》 是 学 习 R 语言 的 极 好 资料 。R 网 站 的 “文档 ”部 分 的 
“贡献 文档 ”也 有 关于 及 不 同方 面 的 免费 书籍 。 


1.3 MySQL 简介 
本 节 简 单 介绍 MySQL 数据 库 。 在 本 书 的 案例 研究 中 不 一 定 要 应 用 MySQL。 然 而 ， 对 于 大 型 


操 ” 这 里 的 文件 名 后 缀 “, R” 不 是 强制 的 ， 你 可 以 用 其 他 后 绷 名 。 
© MHRA, TUHAN ls( ) 来 列 出 当前 工作 空间 中 的 所 有 对 象 。 
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的 数据 挖掘 项 目 ， 应 用 像 MySQL 这 样 的 数据 库 是 必需 的 。 可 以 从 网 站 http :; //www. mysql. com 免 
费 下 载 MySQL 数据 库 。 与 R 类 似 ，MySQL 适用 于 多 种 不 同 的 操作 系统 ， 例 如 Linux, Windows 
等 。 如 果 希 望 在 计算 机 上 安装 MySQL 数据 库 ， 应 该 首先 从 MySQL 网 站 下 载 它 ， 然 后 按照 安装 指 
南 进行 安装 。 另 外 ， 也 可 以 访问 安装 在 与 你 的 计算 机 联网 的 其 他 计算 机 上 的 MySQL ARF 86 o 

可 以 应 用 网 络 上 或 者 本 地 计算 机 上 的 客户 端 程序 来 访问 MySQL, Æ MySQL 网 站 上 ， 有 多 种 
不 同 的 MySQL 客户 端 程序 。MySQL 自 带 一 个 控制 台 型 的 客户 端 程序 ， 该 控制 台 型 客户 端 和 R 类 
似 ， 以 命令 行 方式 工作 。 另 外 ， 也 可 以 安装 并 应 用 图 形 界 面 的 客户 端 程 序 来 应 用 MySQL， 其 中 
之 一 是 MySQL Query Browser， 它 是 一 款 免费 的 MySQL 客户 端 程序 ， 可 以 试 试 。 

如 果 应 用 控制 台 型 的 客户 端 程序 ， 那 么 可 以 在 操作 系统 的 命令 提示 符 后 用 以 下 命令 来 访问 
MySQL: 

$> mysql -u myuser -p 


Password: +++t+++4 


mysql» 
如 果 访 问 远程 的 MySQL 服务 器 ， 则 应 用 下 列 命令 ; 
$> mysql -h myserver.xpto.pt -u myuser -p 


Password: 站 丰 丰 丰 丰 丰 丰 


mysql» 

这 里 假设 MySQL 服务 器 有 一 个 名 为 “myuser” 的 用 户 并 且 有 密码 保护 。 如 果 上 述 内 容 对 你 
而 言 很 陌生 ， 你 应 该 与 系统 管理 员 进 行 交 流 或 者 学 习 MySQL 安装 手册 ,或 者 阅读 相关 书籍 ( 例 
40, DuBois, 2000) 。 

进入 MySQL Sea, SIAC A BS ee A OS CS PES FE iA fa Ee h 
台 型 客户 端 用 命令 方式 来 创建 一 个 新 的 数据 库 :; 


mysql» create database contacts; 
Query OK, 1 row affected (0.09 sec) 


可 以 通过 以 下 命令 来 应 用 这 个 新 建 的 数据 库 或 者 其 他 已 经 存在 的 数据 库 : 


mysql» use contacts; 
Database changed 


数据 库 由 一 系列 表 构 成 ， 这 些 表 包 含 相 关 条 目的 数据 。 创 建 表 的 方式 如 下 : 


mysql> create table people( 
-> id INT primary key, 
-» name CHAR(30), 
-> address CHAR(60)); 
Query OK, 1 row affected (0.09 sec) 
注意 符号 “ -> ”是 表示 继续 MySQL 命令 的 提示 符 。 
为 了 在 表 中 加 入 数据 ， 一 种 方法 是 手动 插入 数据 ; 另 一 种 方法 是 用 MySQL 的 导 人 命令 读 人 
外 部 文件 中 的 数据 ， 例 如 外 部 文本 文件 中 的 数据 。 
把 一 条 记录 插入 表 中 的 方法 如 下 : 
mysql» insert into people 
-> values(1,'John Smith','Strange Street, 34, Unknown City'); 


Query OK, 1 row affected (0.35 sec) 
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可 以 用 select 语句 列 出 表 中 的 记录 。 例 如 : 


mysql» select * from people; 


ee 4-----—---------------------------- - 
| id | name | address | 
二 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| 1i | John Smith | Strange Street, 34, Unknown City | 
+ 一- 一 一 二 一 一 一 一 一 一 一 一 一 = 一 4---------------------------------- * 


1 row in set (0.04 sec) 


mysql» select name, address from people; 


| name | address | 


| John Smith | Strange Street，34，Unknow City | 


1 row in set (0.00 sec) 


mysql> select name from people where id >= 1 and id < 10; 


本 一 一 一 一 dac ER dA m === 


二 一 一 一 一 一 一 一 一 一 一 一 一 十 


| John Smith | 
二 一 一 一 一 一 一 一 一 一 一 一 一 二 36 


1 row in set (0.00 sec) i 
当 完 成 MySQL 中 的 工作 之 后 ， 可 以 在 控制 台 型 客户 端 用 命令 “quit” 退 出 MySQL, a 
关于 MySQL 的 参考 文献 
可 以 阅读 MySQL 所 带 的 免费 手册 来 了 解 更 多 有 关 MySQL 的 知识 。 这 个 手册 包含 了 从 安装 到 
MySQL 所 应 用 的 SQL 语言 技术 细节 的 所 有 内 容 。 另 外 ，DuBois (2000 年 ) 所 著 的 《MySQL》 一 
书 ， 也 是 学 习 DBMS 的 最 佳 参 考 资料 ， 作 者 本 身 是 一 个 活跃 的 MySQL 开发 人 员 。 
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预测 海 澡 效 量 


本 案例 研究 将 介绍 一 些 数据 挖掘 的 基本 任务 : 数据 预 处 理 、 探 索性 数据 分 析 和 预测 模型 的 
构建 。 对 于 第 一 个 案例 研究 ， 我 们 选择 了 一 个 就 数据 挖掘 标 准 而 言 较 小 的 问题 。 这 个 问题 是 预测 
水 样 中 某 几 种 有 害 海 药 的 存在 频率 。 如 果 你 不 熟悉 R 语言 ， 并 且 没 有 阅读 1.2 5, 那么 学 习 本 章 
的 案例 时 可 能 需要 复习 1.2 节 。 


2.1 问题 描述 与 目标 


某 些 高 浓度 的 有 害 薄 类 对 河流 生态 环境 的 强大 破坏 是 一 个 严重 的 问题 ， 它 们 不 仅 破 坏 河流 
的 生物 ， 也 破坏 水 质 。 能 够 监测 并 在 早期 对 海藻 的 繁殖 进行 预测 对 提高 河流 质量 是 很 有 必要 的 。 

针对 这 一 问题 的 预测 目标 ， 在 大 约 一 年 的 时 间 内 ,在 不 同时 间 内 收集 了 欧洲 多 条 不 同 河流 
的 水 样 。 对 于 每 个 水 样 ， 测 定 了 它们 的 不 同化 学 性 质 以 及 7 种 有 害 省 类 的 和 存在 频率 。 在 水 样 收集 
过 程 中 ， 也 记录 了 一 些 其 他 特性 ， 如 收集 的 季节 、 河 流 大 小 和 水 流 的 速度 。 

本 案例 研究 的 主要 动机 之 一 是 化 学 监测 价格 便宜 ， 并 且 易 于 自动 化 。 而 通过 分 析 生 物 样品 
KRMKPHRREGR ERA, PRVAARN LEAR, ARMA. Alt, + 
建 一 个 可 以 基于 化 学 性 质 来 准确 预测 药 类 的 模型 将 有 助 于 建立 监测 有 害 藻类 的 廉价 的 自动 化 
系统 。 

39 AER TT FE 23 — A B eT RR AAR. EREK, RIE TERK 
的 频率 和 水 样 的 某 些 化 学 性 质 以 及 其 他 特性 〈 如 季节 、 河 流 类 型 等 ) 是 如 何 相关 的 。 


2.2 数据 说 明 


本 案例 的 数据 来 自 于 ERUDIT 研究 网 络 ， 并 被 用 于 1999 年 的 COIL 国际 数据 分 析 竞 赛 。 可 
以 从 多 个 不 同 的 地 方 得 到 本 案例 的 数据 ， 例 如 UCI 机 器 学 习 数 据 库 ”。 

本 案例 有 两 个 数据 集 ， 第 一 个 数据 集 有 200 个 水 样 。 更 精确 地 说 ， 该 数据 集 的 每 一 条 记录 是 
同一 条 河流 在 该 年 的 同一 个 季节 的 三 个 月 内 收集 的 水 样 的 平均 值 。 

每 条 记录 由 11 个 变量 构成 。 其 中 3 个 变量 是 名 义 变量 ,它们 分 别 描述 水 样 收集 的 季节 、 收 
集 样品 的 河流 大 小 和 河水 速度 。 余 下 的 8 个 变量 是 所 观测 水 样 的 不 同化 学 参数 ， 即 

e 最 大 pH fü 

e 最 小 含 氧 量 (0,) 

e 平均 氯 化 物 含量 (C) 

e 平均 硝酸 盐 含量 (NOJ) 

e 平均 氨 含 量 (NH, ) 


C http: //www. erudit. de/erudit/. 
© http: //archive. ics. uci. edu/ml/. 
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。 平均 正 磷酸 盐 含量 (P0, ) 

e 平均 磷酸 盐 含量 (P0) 

e 平均 叶绿素 含量 

与 这 些 参数 相关 的 是 7 种 不 同 有 害 藻 类 在 相应 水 样 中 的 频率 数目 。 并 未 提供 所 观察 藻类 的 名 
称 的 有 关 信 息 。 

第 二 个 数据 集 由 140 个 额外 观测 值 构成 。 它 们 的 基本 结构 和 第 一 个 数据 集 一 样 ， 但 是 它 不 包 
含 7 种 药 类 的 频率 数目 。 这 些 额 外 的 观测 值 可 以 视 为 测试 集 。 本 案例 的 主要 目标 是 预测 140 个 水 
样 中 7 种 藻类 的 频率 。 这 意味 着 它 是 一 个 预测 型 数据 挖掘 任务 。 这 是 数据 挖掘 所 处 理 的 诸多 问题 
中 的 一 类 问题 。 在 这 种 问题 中 ， 任 务 是 建立 预测 模型 ， 并 预测 在 给 定 预 测 变量 的 取 值 时 相应 的 目 
标 变量 的 值 。 预 测 模型 也 可 能 会 说 明 哪 一 个 预测 变量 对 目标 变量 有 较 大 的 影响 ， 即 模型 可 能 提 
供 影响 目标 变量 因素 的 一 个 综合 描述 。 


2.3 ”数据 加 载 到 R 


我 们 考虑 两 种 把 数据 载 人 R 的 方法 : 1) 利用 本 书 提供 的 R 添加 包 ， 该 包 中 给 出 了 数据 框 形 
式 的 数据 ， 可 以 直接 应 用 ; 2) 访问 本 书 的 网 站 ， 下 载 相应 数据 的 文本 文件 ， 然 后 把 文件 读 人 到 
R 中 。 很 明显 ， 第 一 种 方式 更 实用 。 为 了 说 明 如 何 把 文本 文件 载 人 R 中 ， 我 们 同时 也 介绍 第 二 种 
方法 。 

如 果 应 用 第 一 种 简单 的 方法 ， 只 要 载 人 本 书 的 R 添加 包 ”， 就 直接 有 了 一 个 名 为 algae 的 数 
据 框 。 这 个 数据 框 含有 前 面 提 到 的 200 个 观测 值 ， 


> library (DMwR) 
> head(algae) 


season size speed mxPH mn02 cl NO3 NH4 oP04 P04 Chla 
1 winter small medium 8.00 9.8 60.800 6.238 578.000 105.000 170.000 50.0 
2 spring small medium 8.35 8.0 57.750 1.288 370.000 428.750 558.750 1.3 
3 autumn small medium 8.10 11.4 40.020 5.330 346.667 125.667 187.057 15.6 
4 spring small medium 8.07 4.8 77.364 2.302 98.182 61.182 138.700 1.4 
5 autumn small medium 8.06 9.0 55.350 10.416 233.700 58.222 97.580 10.5 
6 winter small high 8.25 13.1 65.750 9.248 430.000 18.250 56.667 28.4 
a2 a3 a4 a5 a6 


^»^ooodn 
opNPONE 


1 af. 
2 .0 2. 
3 .0 9. 
4 .0 1. 
5 1 1. 
6 15. 1 14.6 1. 4 0. 0 22. 5 12.6 2.9 

数据 框 可 以 看 做 一 种 有 列 名 称 的 矩阵 或 者 表格 ， 它 是 存储 R 数据 表 的 一 种 理想 的 数据 结构 。 
函数 head( ) 将 显示 数据 框 的 前 6 行 。 

另外 一 种 载 入 数据 的 方式 是 用 本 书 网 站 中 “Data” (数据 ) 部 分 的 文本 文件 。 在 “Training 
data" (训练 数据 ) 链接 下 的 文件 “Analysis. txt” 中 包含 200 个 水 样 ， 而 在 “Test data” (测试 数 
据 ) 链接 下 的 文件 “Eval. txt” 中 包含 140 个 测试 样本 。 另 一 个 链接 下 的 文件 “Sols. kt” 包 含 
140 个 测试 样本 的 藻类 频率 。 最 后 这 个 文件 将 用 来 测试 预测 模型 的 性 能 ， 它 在 建立 模型 时 将 被 视 
为 未 知 的 。 这 些 文件 的 每 一 行 代表 一 个 观测 值 。 在 训练 集 和 测试 集中 ， 每 一 行 的 变量 (如 2.2 节 
所 描述 ) 值 之 间 由 空格 来 分 隔 。 缺 失 值 由 字符 串 “XXXXXXX” 来 表示 。 


e ”由 于 该 添加 包 在 R 的 标准 安装 中 是 没有 的 ， 必 须 先 安装 它 才 能 使 用 。 关 于 添加 包 的 安装 ， 请 参见 1.2.1 节 。 


30 + ARRAS RARA 


我 们 需要 做 的 第 一 件 事 是 从 本 书 网 站 下 载 三 个 文件 ， 并 把 它们 存储 在 本 地 计算 机 硬盘 的 某 个 目 
录 下 (最 好 存储 在 当前 运行 R 的 目录 下 ,可 以 在 R 命令 行 下 用 命令 getwd( ) 来 获取 该 目录 ) 。 
把 文件 下 载 到 一 个 本 地 计算 机 目录 后 ， 就 可 以 把 文本 文件 “Analysis. txt” 中 的 数据 加 载 到 R 
中 【训练 数据 是 指 用 来 建立 预测 模型 的 数据 ) 。 可 以 输入 以 下 命令 把 文件 中 的 数据 读 人 到 R HB; 
> algae <- read.table('Analysis.txt', 
+ header=F, 
dec="'.', 
col.names=c('season' ,'size','speed','mxPH','mn02','Cl', 
'NO3' ,'NH4' ,' oPO4' ,'PO4','Chla','ai','a2','a3','ad', 
'a5','a6','a7'), 
na. strings=c ('XXXXXXX')) 
参数 header = F 表示 要 读 的 文件 的 第 一 行 不 包括 变量 名 。dec cio. ”指出 数值 使 用 ”. ， 字 
符 分 隔 小 数位 。 这 两 个 参数 设置 可 以 省 略 ， 因 为 这 里 使 用 了 它们 的 默认 值 。col. names 给 正在 读 
取 的 变量 提供 一 个 名 称 向 量 。 最 后 ，na. strings RMAF AE RRA AA. DEER 内 
部 用 NA 来 表示 ， 如 1.2.3 节 中 所 示 。 
R 有 多 个 读 取 文本 文件 中 数据 的 函数 。 可 以 输入 “? read. table” 来 获得 进一步 的 信息 和 其 
他 相关 函数 。 此 外 ，R 有 一 本 名 为 《R Data Import/Export) 的 手册 ， 该 手册 描述 了 R 从 其 他 应 用 
程序 读 取 数 据 的 不 同方 法 。 
上 面 指令 的 结果 是 一 个 数据 框 。 数 据 框 的 每 一 行 代表 数据 集 的 一 个 观测 值 。 例 如 ， 可 以 用 指 
Æ algae [1: 5,]° 来 获得 文件 的 前 5 个 观测 值 。 在 1. 2.7 节 我 们 讲 了 在 R 中 获取 像 数 据 框 这 样 的 
R 对 象 的 特定 元 素 的 方法 。 


2.4 数据 可 视 化 和 摘要 
鉴于 没有 该 问题 领域 足够 的 信息 ， 首 先 了 解 一 些 数据 的 统计 特性 是 一 种 较 好 的 方式 ， 它 方 
便 我 们 更 好 地 理解 问题 。 即 使 对 问题 有 了 充分 的 了 解 ， 从 下 面 的 探索 性 数据 分 析 着 手 进行 分 析 
获取 数据 统计 特性 的 一 个 方法 是 获取 数据 的 如 下 描述 性 统计 摘要 。 


> summary (algae) 


二 十 十 十 十 


season size speed mxPH mn02 
autumn:40 large :45 high :84 Min. :5.600 Min. : 1.500 
spring:53  medium:84 low :33 ist Qu.:7.700 ist Qu.: 7.725 
summer:45 small :71 =medium:83 Median :8.060 Median : 9.800 
winter :62 Mean :8.012 Mean : 9.118 
3rd Qu.:8.400 3rd Qu.:10.800 
Max. :9.700 Max. :13.400 
NA's 71.000 NA's : 2.000 
C1 NOS NH4 oPD4 
Min. : 0.222 Min. : 0.050 Min. - 5.00 Min. : 1.00 
ist Qu.: 10.981 ist Qu.: 1.296 ist Qu.: 38.33 ist Qu.: 15.70 
Median : 32.730 Median : 2.675 Median : 103.17 Median : 40.15 
Mean : 43.636 Mean : 3.282 Mean : 501.30 Mean : 73.59 
3rd Qu.: 57.824 3rd Qu.: 4.446 Jrd Qu.: 226.95 3rd Qu.: 99.33 


o ”这 里 假设 数据 文件 位 于 R 的 当前 工作 目录 中 ; 否则 ， 可 以 应 用 函数 setwd( ) 来 改变 当前 工作 目录 。 在 Windows 
操作 系统 中 ， 可 以 点 击 “文件 ”菜单 下 的 “改变 工作 目录 ”选项 来 改变 R 的 当前 工作 目录 。 
e ”这 里 也 可 以 用 前 面 介 绍 的 范 数 head (algae) 得 到 相同 的 结果 。 
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Max. :391.500 Max. :45.650 Max. :24064.00 Max. :564.60 
NA's : 10.000  NA's : 2.000 £NA's 2.00  NAÀ's 2.00 
P04 Chla al a2 
Min. : 1.00 Min. 0.200 Min. : 0.00 Min. : 0.000 
ist Qu.: 41.38 ist Qu.: 2.000 ist Qu.: 1.50 ist Qu.: 0.000 
Median :103.29 Median : 5.475 Median : 6.95 Median : 3.000 
Mean :137.88 Mean : 13.971 Mean 16.92 Mean : 7.458 
3rd Qu.:213.75 3rd Qu.: 18.308 3rd Qu.:24.80 3rd Qu.:11.375 
Max. 771.60 Max. :110.456 Max. :89.80 Max. :72.600 

NA's 2.00 NA's : 12.000 
a3 a4 ab a6 
Min. : 0.000 Min. : 0.000 Min. : 0.000 Min. : 0.000 
ist Qu.: 0.000 ist Qu.: 0.000 ist Qu.: 0.000 ist Qu.: 0.000 
Median : 1.550 Median : 0.000 Median : 1.900 Median : 0.000 
Mean 4.309 Mean : 1.992 A Mean : 5.064 Mean : 5.964 
Srd Qu.: 4.925 3rd Qu.: 2.400 3rd Qu.: 7.500 3rd Qu.: 6.925 
Max. 42.800 Max. :44.600 Max. 744.400 Max. :77 .600 
aT 
Min. : 0.000 
ist Qu.: 0.000 
Median : 1.000 
Mean : 2.495 
3rd Qu.: 2.400 
Max. :31.600 


这 个 简单 的 指令 立即 给 出 了 数据 的 统计 特性 概览 >。 对 于 名 义 变量 (R 中 用 因子 来 表示 ) ， 
它 给 出 每 个 可 能 取 值 的 频数 ?>。 例 如 ， 从 结果 中 可 知 冬季 采集 的 水 样 比 其 他 季节 更 多 。 对 于 数值 
变量 ，R 为 我 们 提供 了 均值 、 中 位 数 、 四 分 位 数 及 极 值 等 一 系列 的 统计 信息 。 这 些 统计 信息 提供 
了 变量 什 分 布 的 初步 信息 《后 面 还 会 有 这 方面 的 分 析 ) 。 在 变量 有 缺失 值 的 情况 下 ， 字 符 串 NA 
后 面 的 数字 即 为 缺失 值 的 个 数 。 通 过 观察 中 位 数 和 均值 之 间 的 差异 以 及 四 分 位 距 ”， 我 们 可 以 了 
解数 据 分 布 的 偏 度 和 分 散 情 况 。 男 外 ， 大 部 分 情况 下 ,这 些 信息 可 以 更 好 地 用 图 形 来 表示 出 来 。 
让 我 们 看 一 个 例子 。 

> hist(algae$mxPH, prob = T) 


该 指令 将 绘制 变量 mxPH 的 直方 图 。 其 结果 如 图 2-1 所 示 。 设 置 参 数 prob =T， 我 们 可 以 得 
到 每 个 取 值 区 间 ” 的 概率 ， 如 果 该 参数 设置 为 FALSE 或 者 忽略 该 参数 ， 它 将 给 出 频数 。 

图 2-1 告诉 我 们 ， 变 量 mxPH 的 分 布 非常 接近 正 态 分 布 ， 它 的 值 大 部 分 聚集 在 该 变量 的 均值 
周围 。 我 们 通过 使 用 Q -Q 图 来 检验 该 变量 是 否 为 正 态 分 布 。 在 R 的 添加 包 car (Fox, 2009) 中 
AY PRX qq. plot( ) 可 以 绘制 Q -Q 图 。 上 例 的 Q -Q 图 如 图 2-2 的 右 图 所 示 ， 左 图 是 一 个 略微 复 
杂 版 本 的 直方 图 。 获 取 图 2-2 的 命令 如 下 : 


应 用 添加 包 Hise 中 的 函数 describe( ) 也 可 以 得 到 类 仆 的 结果 (Harrell Jr, 2009), 

事实 上 ， 如 果 有 太 多 的 取 值 ， 则 只 显示 出 现 频次 最 高 的 几 个 取 值 。 

如 果 把 变量 的 取 值 按照 从 小 到 大 的 顺序 排列 ，25 名 的 取 值 小 于 第 一 个 四 分 位 数 ， 而 75% 的 数值 小 于 第 三 个 四 分 
位 数 ， 因 此 在 第 一 个 四 分 位 数 和 第 三 个 四 分 位 数 之 间 的 数值 个 数 为 50% 。 四 分 位 距 是 第 三 个 四 分 位 数 和 第 一 个 
四 分 位 数 的 差 值 ， 它 可 以 衡量 变量 与 其 中 心 值 的 偏离 程度 ， 该 值 越 大 说 明 偏离 越 大 。 

© 直方 图 的 条 形 的 面积 之 和 应 该 为 1 (而 不 是 某 些 人 认为 的 条 形 的 高 度 ) 。 
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图 2-1 变量 mxPH 的 直方 图 


> library(car) 
> par(mfrow-c(1,2)) 
> hist(algae$mxPH, prob=T, xlab=", 
* main='Histogram of maximum pH value',ylim-0:1) 
> lines(density(algae$mxPH,na.rm-T)) 
> rug(jitter(algae$mxPH)) 
> qq.plot (algae$mxPH,main='Normal QQ plot of maximum pH') 
> par(mfrow=c(1,1)) 
载 人 及 添加 包 car 后 了 ,调用 函数 par() 设置 R 图 形 系 统 的 多 个 参数 。 这 里 把 图 形 输 出 窗口 
设置 为 1 行 2 列 的 区 域 ， 这 样 可 以 在 同一 幅 图 形 中 得 到 两 个 并 列 的 图 形 。 然 后 绘制 第 一 幅 图 形 ， 
43 | 它 是 变量 mxPH 的 直方 图 ， 这 里 它 设置 蕊 轴 标 题 为 空 ， 然 后 改变 图 形 的 标题 ， 提 供 合理 的 了 轴 的 
范围 。 之 后 的 指令 绘制 平滑 版 本 的 直方 图 (变量 分 布 的 核 密度 估计 ”)， 而 下 一 个 命令 在 X 轴 附 
近 绘 制 变量 的 实际 值 ， 从 而 容易 识别 离 群 点 ”。 例 如 ,我 们 可 以 观察 到 有 两 个 值 显著 低 于 所 有 其 
他 值 。 这 种 数据 检查 是 非常 重要 的 ， 因 为 它 可 以 确定 数据 样本 中 可 能 出 现 的 错误 ， 甚至 帮助 定位 
那些 奇怪 的 错误 值 或 者 在 后 续 分 析 中 需要 剔除 的 奇怪 值 。 图 2-2 的 右 图 是 用 函数 aq. plot() 得 到 
的 Q-Q 图 ， 它 绘制 变量 值 和 正 态 分 布 的 理论 分 位 数 〈 黑 色 实 线 ) 的 散 点 图 。 同 时 ， 它 给 出 正 态 
分 布 的 95 免 置信 区 间 的 带 状 图 (虚线 ) 。 从 图 2-2 右 图 可 知 ， 变 量 有 几 个 小 的 值 明 显 在 %5 名 置信 
区 间 之 外 ， 它 们 不 服从 正 态 分 布 。 
注意 ， 上 例 大 量 应 用 了 函数 复合 ， 一 个 函数 的 结果 调用 男 一 个 函数 。 当 不 理解 这 些 阻 数 复合 
时 ， 可 以 每 次 调用 一 个 函数 ,分 别 理解 它 的 输出 。 
下 面 的 指令 给 出 了 另 一 个 数据 检查 的 例子 ， 它 用 来 检查 变量 oP04: 


© ”这 里 应 用 函数 library( ) 来 载 作 添加 包 时 要 注意 ， 访 添加 包 必 须 预 先 安装 在 你 的 计算 机 中 。 理 则 ，R 会 报错 ， 这 
时 ， 需 要 用 1.2. 1 节 中 给 出 的 方法 来 先 安装 该 添加 包 。 

SO 在 许 包 函数 中 ， 设 置 人 参数 “na rm =T” 是 说 明 在 函数 的 计算 中 不 考虑 NA 值 。 在 多 个 函数 中 ， 这 种 设置 是 必需 
的 ， 因 为 它 不 是 这 些 函 数 的 黑 认 设置 。 否 则 ， 将 会 出 现 错误 。 

& EXE, REA MTAA HHA. HA ug( ) TATRA, Meee jiter() 对 要 绘制 的 原始 值 略 微 进行 随机 排列 ， 这 
就 避免 了 两 个 值 相 等 的 可 能 性 ， 因 而 避免 了 两 个 标记 重合 在 一 起 而 导致 可 视 化 检查 时 一 些 值 被 “掩盖 ”。 
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Histogram of maximum pH value Normal GQ plot of maximum pH 
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图 2-2 变量 MxPH 的 直方 图 的 “丰富 ”版 本 ( 左 图 ) D Q-QPI ( 右 图 ) 


> boxplot (algae$oP04, ylab = "Orthophosphate (oPU4)") 

> rug(jitter(algae$oP04), side = 2) 

> abline(h = mean(algae$oP04, na.rm = T), lty = 2) 

第 一 条 指令 绘制 变量 oP04 的 箱 图 。 箱 图 能 快速 提供 变量 分 布 的 一 些 关键 属性 的 摘要 。 箱 图 
框 的 边界 代表 变量 的 第 一 个 四 分 位 数 和 第 三 个 四 分 位 数 ， 而 框 内 的 水 平 线 是 变量 的 中 位 数 。 设 r 
是 变量 的 四 分 位 距 ， 箱 图 上 方 的 小 横 线 是 小 于 或 等 于 第 三 个 四 分 位 数 加 1.5 xr 的 最 大 的 观测 值 ， 

而 箱 图 下 方 的 小 横 线 是 大 于 或 等 于 第 一 个 四 分 位 数 减 去 1.5xr 的 最 小 的 观测 值 。 箱 图 上 方 小 横 

线 上 面 或 者 下 方 小 横 线 下 面 的 小 圆圈 表示 与 其 他 值 相 比特 别 大 或 者 特别 小 的 值 ， 通 常 认 为 是 离 
群 值 。 这 意味 着 箱 图 给 出 大 量 的 信息 ， 它 不 仅 给 出 了 变量 的 中 心 趋势 ， 也 给 出 了 变量 的 发 散 情况 
和 离 群 值 。 i 

第 二 条 指令 在 前 面 已 经 描述 过 了 (唯一 的 区 别 是 数据 绘制 的 位 置 不 同 ) ， 而 第 三 条 指令 使 用 “全 
abline( ) 在 变量 的 均值 位 置 绘制 一 条 水 平 线 ” ， 均 值 由 函数 mean() 计算 。 将 均值 线 和 箱 图 内 的 
分 位 数 线 进行 比较 ， 就 可 以 知道 变量 的 多 个 离 群 值 使 得 作为 变量 中 心 ( 即 变量 的 大 部 分 取 值 ) 

的 均值 产生 了 扭曲 。 

图 2-3 的 分 析 说 明 ， 变 量 oP04 的 分 布 集中 在 较 小 的 观测 值 周围 ， 因 此 分 布 为 正 偏 。 大 部 分 
水 样 的 oPO4 值 比 较 低 , 但 也 有 几 个 水 样 的 观测 值 较 高 ， 甚 至 特别 高 。 

有 时 ， 当 有 离 群 值 时 ， 需 要 确定 那些 有 离 群 值 的 观测 。 这 里 给 出 两 种 方法 。 一 种 方法 是 图 形 
方法 。 如 果 绘 制 变量 NH4 的 值 ， 将 会 注意 到 一 个 特别 大 的 值 。 我 们 可 以 用 下 列 方式 识别 特大 值 
相应 的 水 样 : 


> plot(algae$NH4, xlab = "") 

> abline(h = mean(algae$NH4, na.rm = T), 1ty = 1) 

> abline(h = mean(algae$NH4, na.rm = T) + sd(algae$NH4, na.rm = T), 
* lty = 2) 

> abline(h = median(algae$NH4, na.rm = T), lty = 3) 

» identify(algae$NH4) 


S—ABOCAE RM MAA, HAR abline( ) 绘制 三 条 有 用 的 直线 : 第 一 条 为 均值 ， 
第 二 条 为 均值 加 1 个 标准 差 ， 第 三 条 为 中 位 数 。 对 于 离 群 值 的 识别 ， 尽 管 这 三 条 线 不 是 必需 的 ， 


o AASh ly =2 来 设置 线 型 为 虚线 。 
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但 是 它们 能 提供 变量 的 有 用 信息 。 最 后 一 条 指令 是 交互 式 的 ， 它 允许 用 户 单 击 图 形 中 的 点 ”。 对 
于 每 一 个 单 击 的 点 ，R 将 写 下 该 点 在 algae 数据 框 中 的 行 号 。 用 户 可 以 右 击 来 结束 交互 。 


200 300 0 500 


Orthophosphate (oPO4) 


100 





图 2-3 变量 oPO4 箱 图 的 “丰富 ”版 本 


如 果 需 要 检查 algae 数据 框 中 对 应 于 图 形 中 的 离 群 值 的 观测 记录 ， 最 好 的 方式 是 执行 如 下 
fp: 

> plot(algae$NH4, xlab = "") 

> clicked.lines <- identify (algae$NH4) 

> algae[clicked.lines, ] 

IEMA ABA, PROC identify C). 给 出 对 应 于 图 形 中 单 击 的 点 的 行 号 ， 利 用 这 点 对 
algae 数据 框 进行 索引 ， 可 以 获取 这 些 观 测 值 的 所 有 信息 。 

也 可 以 不 用 图 形 方式 进行 以 上 的 检查 ， 如 下 所 示 : 
> algae[algae$NH4 > 19000, ] 


该 指令 给 出 了 另 一 种 索引 数据 框 的 方式 ， 即 应 用 逻辑 表达 式 来 选 定 行 〈 更 多 的 例子 请 参见 
1.2.7 节 )。 这 条 指令 的 输出 结果 可 能 看 起 来 有 点 奇怪 。 原 因 是 变量 NH4 的 有 些 观测 值 为 NA 值 ， 
这 时 R 不 知道 比较 的 结果 ， 因 此 给 出 了 NA。 为 了 避免 这 种 情况 ， 可 以 应 用 指令 algae[ lis. na 
(algae$ NH4 ) & algae $ NH4 > 19000 ,]。 调 用 因数 is. na( ) 将 产生 一 个 布尔 值 (TRUE 或 者 
FALSE) 向 量 。 当 NH4 的 值 为 NA 时 ， 回 量 的 相应 值 为 TRUE， 这 个 向 量 元 素 的 个 数 和 数据 框 
algae 的 行 数 相同 。 表 达 式 1!is. na (algae$NH4) 返回 一 个 布尔 值 向 量 ， 因 为 “1!1” 是 逻辑 否 运算 ， 
所 以 对 应 数据 框 中 变量 NH4 的 值 为 已 知 的 行 的 位 置 的 值 为 TRUE。 总之， 这 种 索引 方式 将 给 出 那 
些 数据 框 中 变量 NH4 取 值 已 知 并 且 大 于 19 000 的 行 。 

下 面 给 出 几 种 其 他 类 型 的 数据 检查 的 例子 。 这 些 例子 应 用 R 的 添加 包 lattice (Sarkar, 
2010) , lattice 包 提 供 了 大 量 优 秀 的 图 形 工 具 ， 这 些 图 形 工 具 实 现 了 Trellis 图 形 (Cleveland, 
1993) 的 思想 。 

假设 需要 研究 海藻 变量 al 的 值 的 分 布 。 可 以 应 用 上 面 讨论 的 任何 方法 。 然 而 ， 如 果 这 里 需 
要 研究 分 布 如 何 依赖 于 其 他 变量 ， 就 需要 新 的 工具 。 

条 件 绘图 是 依赖 于 某 个 特定 因子 的 图 形 表 示 。 因 子 是 一 个 取 值 为 有 限 集 合 的 名 义 变量 。 例 
如 ， 对 于 变量 size 的 不 同 取 值 ， 可 以 绘制 变量 al 的 一 组 箱 图 (如 图 2-4 所 示 ) 。 每 个 箱 图 是 对 应 
于 变量 size 的 某 个 特定 值 的 水 样子 集 。 通 过 这 些 箱 图 可 以 研究 名 义 变量 size 如 何 影 响 变量 al 值 


O ”鼠标 单 击 的 相对 于 点 的 位 置 将 决定 R 把 行 号 写 在 哪 一 边 。 例 如 ， 如 果 在 点 的 右边 单 击 , 行 号 将 写 在 点 的 右边 。 
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的 分 布 。 绘 制图 2-4 中 箱 图 的 命令 如 下 : 

> library(lattice) 

> bwplot(size ~ al, data=algae, ylab='River Size',xlab-'Algal A1') 

上 面 的 第 一 条 指令 载 人 lattice 包 。 第 二 条 指令 绘制 这 些 图 lattice 版 本 的 箱 图 ， 这 条 指令 可 以 
BER: 对 变量 size 的 每 个 值 绘制 al. 。 其 他 参数 的 意义 显而易见 。 

从 图 2-4 可 知 ， 在 规模 较 小 的 河流 中 ， 海 攻 al 的 频率 较 高 ， 这 是 很 有 和 用 的 信息 。 





Algal A1 
图 2-4 EATE al 的 条 件 箱 图 


这 种 箱 图 的 另外 一 个 类 型 是 分 位 箱 图 ， 它 可 以 给 出 所 绘制 变量 的 更 多 信息 。R 添加 包 Hmisc 
可 以 绘制 分 位 箱 图 。 下 面 绘制 上 面 例 子 中 al 变量 的 条 件 分 位 箱 图 ; [49 | 

» library (Hmisc) 

> bwplot(size ~ ai, data=algae,panel=panel.bpplot, 

+ probs=seq(.01,.49,by=.01), datadensity=TRUE, 

+ ylabz'River Size',xlab='Algal A1') 

上 面 命令 的 输出 结果 如 图 2-5 所 示 。 图 2-5 中 的 点 代表 不 同 大 小 的 河流 中 海藻 频数 的 均值 ， 
而 图 中 的 竖 线 分 别 代表 变量 的 第 一 个 分 位 数 、 中 位 数 和 第 三 个 分 位 数 。 图 2-5 中 的 小 竖 线 代表 数 
据 的 真实 取 值 ， 这 些 值 的 分 布 信息 则 由 分 位 数 图 来 体现 。 分 位 数 箱 图 提供 的 信息 要 多 于 图 2-4 所 
示 的 传统 箱 图 的 信息 。 例 如 ， 我 们 可 以 确认 上 面 的 观测 结论 : 小 型 的 河流 有 更 高 频率 的 海藻， 但 
我 们 也 观察 到 小 型 河流 的 海藻 频率 的 分 布 比 其 他 类 型 河流 的 海藻 频率 的 分 布 分 散 。 

这 种 类 型 的 条 件 绘图 不 局 限于 名 义 变量 ， 也 不 局 限于 单个 因子 。 只 要 先 把 连续 变量 “离散 
化 " ， 也 同样 可 以 进行 条 件 绘图 。 下 面 给 出 一 个 两 个 因子 的 条 件 绘图 的 例子 。 考 虑 变量 o3 在 给 
定 变量 season 和 变量 mn02 下 的 条 件 绘图 ， 变 量 mn02 是 一 个 连续 变量 ,绘图 代码 如 下 所 示 ; 

> min02 <- equal.count(na.omit(algae$mn02), 


+ number=4,0verlap=1/5) 
> stripplot(season ^ a3/min02, 
* data-algae[!is.na(algae$mn02),]) 


以 上 代码 得 到 的 图 形 输出 如 图 2-6 所 示 。 
上 面 代 码 的 第 一 行 是 调用 函数 equal. count( ) 对 连续 变量 mn02 离散 化 ， 把 该 变量 转换 为 因 
FRE, BR number 设置 需要 的 区 间 个 数 ， 参 数 overlap 设置 两 个 区 间 之 间 的 靠近 边界 的 重合 


36 + 数据 挖掘 与 只 语言 


(这 意味 着 划 些 观测 值 将 被 分 配 到 相 邻 的 区 间 中 ) 。 每 个 区 间 的 观测 值 的 个 数 相等 。 注 意 ， 变 量 
algae$ mnO2 中 含有 NA 值 ， 所 以 上 面 的 指令 中 没有 直接 应 用 该 变量 ， 和 否则 会 导致 其 后 的 绘图 函 
EH EE. AŽ na. omit( ) 可 以 用 来 剔除 向 量 中 的 任何 NA 值 。 





AQ 
Algal A1 


2-5 WARTE al 的 条 件 分 位 数 箱 图 





图 2-6 海藻 变量 a3 的 条 件 箱 图 


第 二 行 调用 绘图 函数 stripplot( ) ， 该 函数 是 lattice 包 中 的 一 个 绘图 旺 数 ， 它 根据 另 一 个 变量 

(这 里 是 season) 把 变量 的 实际 值 绘制 到 不 同 的 图 形 中 。 然 后 对 变量 mn02 的 每 个 不 同 的 区 间 绘 

制 不 同 的 图 形 。 这 些 区 间 按 照 从 左 到 右 、 从 下 到 上 的 顺序 来 排列 。 即 与 左下 方 的 图 形 相对 应 的 是 
-51 | 较 小 的 mn02 值 。 变 量 mn02 中 的 NA 值 也 会 对 图 形 的 绘制 产生 影响 。 不 能 像 绘制 图 2-4 那样 直 


e 在 后 面 的 2.5 节 将 给 出 另 一 种 更 好 的 解决 方案 。 
号 ”可 以 打印 所 创建 的 变量 离散 化 版 本 来 查看 创建 的 区 间 的 实际 值 。 
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接应 用 参数 data = algae， 而 应 该 先 剔 除 水 样 中 变量 mn02 含有 NA 值 的 行 。 

数据 摘要 和 和 可视化 的 参考 文献 

大 多 数 标准 的 统计 教科 书 都 含有 数据 汇总 的 内 容 。 一 本 较 简 单 的 、 很 好 的 统计 书籍 是 
Chatfield (1983) 的 《Statistics for Technology》。 该 书 的 例子 简单 并 很 能 说 明 问 题 。 另 外 一 本 好 的 
参考 书 藉 是 Dalgaard (2002) 的 《Introductry Statistics with R》。 对 于 数据 可 视 化 ， 必 需 的 一 本 参 
考 书 是 Cleveland (1993) 的 《Visualizing Data》， 这 时 一 本 物 有 所 值 的 优秀 书籍 。 另 外 一 本 后 续 
&) $E X64 (The Elements of Graphing Data) (Cleveland ，1995 ) 。 一 本 更 新 的 优秀 书籍 是 
Chen 等 (2008) 编著 的 《Data Visualization}, KÆ, Murrell (2006) 的 《R Graphics) 则 更 是 一 
本 全 部 有 关 R KAS HHH. 


2.5 数据 缺失 
在 许多 水 样 中 ， 一 些 变量 含有 缺失 值 。 这 种 情形 在 现实 问题 中 非 遂 普 过 ， 这 会 导致 一 些 不 能 
处 理 缺 失 值 的 分 析 方 法 无 法 应 用 。 EFA 


当 我 们 处 理 含 有 缺失 值 的 数据 时 ， 可 以 运用 以 下 几 种 最 常见 的 策略 : 

e 将 含有 缺失 值 的 案例 剔除 。 

e 根据 变量 之 间 的 相关 关系 填补 缺失 值 。 

e 根据 案例 之 间 的 相似 性 填补 缺失 值 。 

e 使 用 能 够 处 理 人 缺失 值 数据 的 工具 。 
最 后 一 种 方式 是 最 严格 的 ， 因 为 它 限定 了 我 们 可 以 使 用 的 工具 。 然 而 ， 当 对 这 些 可 以 处 理 缺 失 值 
的 数据 挖掘 工具 有 信心 时 ， 它 们 可 能 是 一 个 好 的 选择 。 在 下 面 的 章节 中 ， 我 们 将 通过 举例 来 演示 
如 何在 R 中 实现 上 述 处 理 缺 失 值 的 方法 。 如 果 你 决定 试 一 试 本 书 中 给 出 的 代码 ， 你 需要 了 解 它 
们 不 是 互相 补充 的 。 由 于 每 节 都 用 不 同 的 方法 来 处 理 这 些 数据 ， 这 意味 着 当 你 选择 用 其 他 方式 
来 处 理 这 些 缺 失 值 时 ， 需 要 重新 读 取 含 有 所 有 缺失 值 的 原始 数据 。 重 新 读 取 数据 的 代码 如 下 

> library(DMwR) 

> data(algae) 


2.5.1 将 缺失 部 分 剔除 

剔除 含有 缺失 数据 的 记录 非常 容易 实现 ， 尤 其 是 当 这些 记 录 所 占 的 比例 在 可 用 数据 集中 非 
常 小 的 时 候 ， 这 个 选择 就 比较 合理 。 

在 剔除 某 些 变 量 中 至 少 含有 一 个 缺失 数据 的 所 有 观测 值 时 ， 最 好 先 检查 观测 值 ， 或 者 至 少 
得 到 这 些 观测 值 的 个 数 ， 例 如 ; 

> algae[!complete.cases(algae),] 


> nrow(algae[!complete.cases(algae),]) 
[1] 16 
函数 complete. cases( ) 产生 一 个 布尔 值 癌 量 ， 该 回 量 的 元 素 个 数 与 algae 数据 框 中 的 行 数 相 
同 ， 如 果 数 据 框 的 相应 行 中 不 含 NA 值 〔 即 为 一 个 完整 的 观测 值 ) ， 函 数 返回 值 就 是 TURE, Ai 
面 提 到 过 “! ”运算 符 ， 它 是 取 逻 辑 否 ， 因 此 上 述 指令 显示 了 含有 缺失 值 的 水 样 记 录 。 
为 了 从 数据 框 中 剔除 这 16 个 样本 ， 我 们 可 以 简单 地 输入 : [53 | 
> algae <- na.omit(algae) 


即使 我 们 决定 不 使 用 剔除 所 有 包含 缺失 值 记 录 的 极端 方法 ， 我 们 也 可 以 剔除 某 些 观测 值 。 因 为 
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这 些 样本 的 缺失 值 太 多 ， 所 以 它们 几乎 是 无 用 的 样本 ， 如 果 采 用 复杂 的 方法 来 填补 缺失 值 ， 就 会 导 
致 较 大 偏差 。 需 要 注意 的 是 ， 如 果 执 行 了 前 面 的 命令 ， 你 需要 重新 读 取 数 据 ， 因 为 这 个 指令 已 经 
剔除 了 所 有 缺失 数据 ， 所 以 接 下 来 的 命令 就 没有 意义 ! 观察 这 个 样本 中 的 数据 ， 我 们 可 以 看 到 第 
62 条 和 第 199 条 记录 中 的 11 个 解释 变量 有 6 个 是 缺失 值 。 在 这 种 情况 下 ， 最 好 是 剔除 它们 : 


> algae «- algae[-c(62, 199), ] 


在 有 些 问 题 中 ， 由 于 大 量 记录 中 含有 缺失 值 ， 用 上 面 的 观察 方法 来 检查 数据 的 缺失 值 是 不 
可 行 的 ， 所 以 需要 找 出 缺失 值 较 多 的 样本 所 在 的 行 。 下 面 的 代码 可 以 找 出 海 药 数据 集中 每 行 数 
据 的 缺失 值 个 数 ; 


> apply(algae, 1, function(x) sum(is.na(x))) 


函数 apply() 属于 R C"PEIRESE 78 S8 BJ — KR, 3X 2S PRCXL FR OU ZG ER XC, LE] RT ELE 3 
些 条 件 下 对 对 象 应 用 其 他 函数 。 对 函数 apply() Ma, EAT ALBAE BS Bch F338]—1- E HEN] 
象 的 各 个 维度 上 。 使 用 函数 apply( ) 时 ， 它 把 一 个 函数 应 用 到 数据 框 的 每 一 行 。 这 个 被 应 用 的 
函数 在 apply( ) 函数 的 第 三 个 参数 中 给 出 ， 对 数据 框 的 每 一 行 都 分 别 调用 该 函数 。 在 这 个 案例 中 
我 们 使 用 一 个 临时 函数 。 它 只 在 调用 apply( ) 函数 时 才 存 在 。 另 外 ， 郴 数 apply( ) 的 第 三 个 参数 
也 可 以 是 一 个 “正常 ”函数 的 旺 数 和 名。 临时 随 数 的 功能 是 计算 对 象 x 中 NA 的 数量 。 在 R pe 
{ii TURE 等 于 数值 1， 逻辑 值 FALSE 等 于 数值 0， 这 意味 着 当 加 一 个 布尔 值 向 量 时 ,得 到 向 量 中 
取 值 为 TURE 的 元 素 的 个 数 。 

根据 以 上 代码 ， 可 以 编写 一 个 程序 找 出 algae 中 含有 给 定数 目 缺 失 值 的 行 。 在 本 书 提 供 的 添 
加 包 中 有 这 个 函数 。 可 以 如 下 应 用 该 函数 : 

> data(algae) 

> manyNAs(algae, 0.2) 


[1] 62 199 

EUR TERI PRE PIER T S (BLUES AE YLT BB ELA a RAI FA PX data( ) eB manyNAs( ) 
的 功能 是 找 出 缺失 值 个 数 大 于 列 数 2096 的 行 。 在 第 二 个 参数 中 可 以 设置 一 个 精确 的 列 数 作 为 界 
限 。 因 此 ， 用 下 面 的 代码 就 无 须知 道 含 有 缺失 值 较 多 的 行 的 具体 数量 

> algae <- algae[-manyNAs(algae), ] 

在 这 个 案例 中 我 们 应 用 了 manyNAs( ) ， 哨 数 第 二 个 参数 的 默认 值 为 0.2。 
2.5.2 用 最 高 频率 值 来 填补 缺失 值 

填补 含有 缺失 值 记 录 的 另 一 个 方法 是 尝试 找到 这 些 缺 失 值 最 可 能 的 值 。 同 样 ， 这 里 有 多 种 
策略 可 供 选 择 ， 不 同 策略 对 通 近 程度 和 算法 复杂 度 的 权衡 不 同 。 

填补 缺失 数据 最 简便 和 快捷 的 方法 是 使 用 一 些 代 表 中 心 趋 势 的 值 。 代 表 中 心 趋势 的 值 反 映 
了 变量 分 布 的 最 常见 值 ， 因 此 中 心 趋势 值 是 最 自然 的 选择 。 有 多 个 代表 数据 中 心 趋势 的 指标 ， 例 
如 平均 值 、 中 位 数 、 众 数 等 。 最 合适 的 选择 由 变量 的 分 布 决定 。 对 于 接近 正 态 的 分 布 来 说 ， 所 有 
的 观测 值 都 较 好 地 聚集 在 平均 值 周围 ， 平 均值 数 就 是 最 佳 选 择 。 然 而 ， 对 于 偏 态 分 布 ， 或 者 有 离 
群 值 的 变量 来 说 ， 选 择 平 均值 就 不 好 。 偏 态 分 布 的 大 部 分 值 都 聚集 在 变量 分 布 的 一 侧 ， 因 此 平均 
值 不 能 作为 最 常见 值 的 代表 。 另 一 方面 ， 离 群 值 ORE) 的 存在 会 扭曲 平均 值 ， 这 就 导致 了 平 
均值 不 具有 代表 性 的 问题 。 因 此 ， 在 对 变量 分 布 进行 检查 之 前 选择 平均 值 作为 中 心 趋势 的 代表 


o 第 二 个 参数 中 的 “1” 表 示 第 一 个 参数 中 的 对 象 的 第 一 个 维度 ， 即 数据 框 的 行 数据 。 
© [gic(1.2, 1.3, 0.4，0.5，3，15) 的 均值 是 3. 583, 
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是 不 明智 的 ， 例 如 ， 某 些 R 的 绘图 工具 ( 见 图 2-2)。 对 偏 态 分 布 或 者 有 离 群 值 的 分 布 而 言 ， 中 
位 数 是 更 好 的 代表 数据 中 心 趋势 的 指标 。 
比如 ， 样 本 algae[48,] 中 的 变量 mxPH 有 缺失 值 。 由 于 该 变量 分 布 近 似 正 态 分 布 〈 见 图 2-2)， 
我 们 可 以 选用 平均 值 来 填补 这 个 “ 洞 "， 计 算 方法 如 下 : 
> algae[48, "mxPH"] <- mean(algae$mxPH, na.rm = T) 


这 里 ， 函 数 mean( ) 计算 数值 向 量 的 平均 值 ， 参 数 na. rm = 了 使 计算 时 忽略 缺失 数据 ”。 

大 多 数 时 候 采 用 一 次 填补 一 列 中 的 所 有 缺失 值 而 不 是 像 上 面 那 样 一 行 一 行 地 逐个 填补 。 以 
变量 Cha 为 例 ， 这 个 变量 在 第 12 行 上 有 缺失 值 。 另 外 ， 这 也 是 平均 值 不 能 代表 大 多 数 变量 值 的 
一 种 情况 。 事 实 上 ，Chla 的 分 布 偏向 于 较 低 的 数值 ， 并 且 它 有 几 个 极端 值 ， 这 些 都 使 得 平均 值 
(13.971) 不 能 代表 大 多 数 的 变量 值 。 因 此 ， 我 们 使 用 中 位 数 来 填补 这 一 类 的 缺失 值 : 

> algae[is.na(algae$Chla), "Chla"] <- median(algae$Chla, na.rm = T) 


APE Pe BEY PRISE centrallmputation( ) 可 以 用 数据 的 中 心 趋势 值 来 填补 数据 集 的 所 有 
缺失 值 。 对 数值 型 变量 ， 该 函数 用 中 位 数 ; 对 名 义 变量 ， 它 采用 众 数 。 该 函数 的 应 用 如 下 : 

> data(algae) 

> algae <- algae[-manyNAs(algae), ] 

> algae <- centralImputation(algae) 

由 于 缺失 值 的 和 存在 会 导致 某 些 方法 不 能 使 用 ， 所 以 使 用 上 面 的 方法 填补 缺失 值 通常 也 认为 
不 是 很 好 的 方法 。 虽 然 上 述 的 简单 方法 速度 快 ， 特 别 适 用 于 大 数据 集 ， 但 是 它 可 能 导致 较 大 的 数 
据 偏差 ， 影响 后 期 的 数据 分 析 工 作 。 然 而 ， 使 用 无 偏方 法 来 寻找 最 佳 数 据 填补 值 复杂 ， 对 于 大 型 
数据 挖掘 问题 可 能 并 不 适用 。 
2.5.3 通过 变量 的 相关 关系 来 填补 缺失 值 

男 一 种 获取 缺失 值 较 少 偏差 估 订 值 的 方法 是 探寻 变量 之 间 的 相关 关系 。 比 如 ， 通 过 变量 值 
之 间 的 相关 关系 ， 能 够 发 现 某 变量 与 mxPH 高 度 相关 。 这 可 以 使 我 们 得 到 含有 人 缺失 值 的 第 48 条 
样本 的 更 可 能 的 填补 值 。 这 比 之 前 使 用 平均 值 的 方法 将 更 胜 一 筹 。 

应 用 如 下 命令 来 得 到 变量 间 的 相关 值 : 


> cor(algae[, 4:18], use = "complete.obs") 


AX cor( ) 的 功能 是 产生 蛮 量 之 间 的 相关 值 矩 阵 (因为 前 3 个 变量 是 名 义 变 量 ， 所 以 计算 相 
关 值 时 不 考虑 它们 ) 。 设 定 参 数 use = "complete. obs" 时 ，R 在 计算 相关 值 时 忽略 含有 NA 的 记录 。 
相关 值 在 1 (或 -1) 周围 表示 相应 的 两 个 变量 之 间 有 强 正 (或 负 ) 线性 相关 关系 。 然 后 其 他 R 
函数 可 以 得 到 变量 间 线 性 相关 的 近似 函数 形式 ， 它 可 以 让 我 们 通过 一 个 变量 的 值 计 算出 男 一 个 
变量 的 值 。 

PEE cor( ) 的 输出 结果 并 不 是 很 清晰 ， 但 可 以 通过 函数 symnum( ) 来 改善 结果 的 输出 形式 ， 
例如 


> sgymnum(cor(algae[,4:18],use-"complete.obs")) 


mP m0 Cl NO NH o P Ch ai a2 a3 ad ab að a7 


e ”因为 原始 数据 在 该 列 中 有 人 缺失 值 ， 如 果 不 设 定 参 数 na rm =T， 得 到 的 结果 将 是 NA, 
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NH4 1 4 

oP04 E d 1 

PO4 * 1 

Chla . 1 

al ; Ede 1 

a2 i i 1 

a3 i 

a4 i . 1 

ab 1 

a6 > . 1 
a7 1 
attr(,"legend") 

(1] 0 '' 0.3 '.' 0.6 ',' 0.8 '+' 0.9 '«' 0.95 'B' 1 
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在 本 案例 的 数据 中 ， 大 多 数 变量 之 间 是 不 相关 的 。 然 而 ， 有 两 个 例外 : 变量 NH4 和 NO3 之 
间 ， 变 量 PO4 和 oPO4 之 间 。 后 两 个 变量 之 间 的 相关 值 很 高 (大 于 0.9)。 变 量 NH4 和 N03 之 间 
的 相关 性 不 是 特别 明显 (290.72) ， 因 此 根据 它们 来 确定 缺失 数据 是 危险 的 。 此 外 ， 因 为 样本 62 
和 样本 199 有 太 多 的 变量 含有 缺失 值 ， 所 以 如 果 剔 除 它们 ， 样 本 中 的 变量 NH4 和 NO3 就 没有 使 
失 值 了 。 至 于 变量 PO4 和 oP04， 它们 之 间 相 关 性 ?可 以 帮助 填补 这 两 个 变量 的 缺失 值 。 为 了 达 
到 这 个 目标 ,我 们 需要 找到 这 两 个 变量 之 间 的 线性 相关 关系 ， 方 法 如 下 : 


> data(algae) 
> algae <- algae[-manyNAs(algae), ] 
> lm(PO4 ^ oPO4, data = algae) 


Call: 
lm(formula = P04 ^ oP04, data = algae) 


Coefficients: 
(Intercept) oP04 
42.897 1.293 


pa Im() 可 以 用 来 获取 形 如 了 =B Bux, +… +B,x。 的 线性 模型 。2.6 THRHR A 
数 。 线 性 模型 是 ，PO4 =42. 897 + 1, 293 x oP04。 如 果 这 两 个 变量 不 是 同时 有 人 缺失 值 ， 那 么 可 以 
通过 这 个 公式 计算 这 些 变量 的 缺失 值 。 

在 剔除 样本 62 和 样本 199 后 ， 还 剩 下 一 个 样本 (样本 28) 在 变量 P04 上 有 缺失 值 ， 可 以 简 
单 地 使 用 上 面 的 线性 关系 计算 缺失 值 的 填补 值 ; 

> algae[28, "PU4"] <- 42.897 + 1.293 * algae[28, "oP04"] 


然而 ， 为 了 说 明 这 个 方法 ， 我 们 假设 变量 P04 有 多 个 缺失 值 。 如 何 使 用 上 述 的 线性 关系 计 
算 所 有 的 缺失 值 呢 ? 最 好 的 方法 是 构造 一 个 一 数 ， 它 可 以 根据 给 定 的 oPOA 的 值 计算 P04 的 值 ， 
然后 对 所 有 缺失 值 应 用 这 个 函数 。 


> data(algae) 

> algae <- algae[-manyNAs(algae), ] 
> fillP04 <- function(oP) { 

十 if (is.na(oP)) 

* return(NA) 


O ”根据 领域 专家 的 解释 ， 总 的 磁 酸 盐 值 (PO4) 包含 正 磷酸 盐 值 (PO), 
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* else return(42.897 * 1.293 * oP) 

+ 

> — "P04"] <- sapply(algae[is.na(algae$P04), 

* "oPO4"], £111P04) 

上 面 代码 创建 了 一 个 叫做 &ülPO4() 的 函数 ， 该 函数 有 一 个 参数 来 接收 变量 oP04 的 值 。 给 
XE oP04 的 值 ， 这 个 函数 将 根据 得 到 的 线性 关系 (尝试 “flP04(6.5)” 语 句 ) 计算 变量 PO4 的 
ff. Aa. HT RAW ES P04 有 缺失 值 的 所 有 样本 。 这 个 过 程 可 以 通过 另 一 个 元 函数 
sapply() SCHL. PAM sapply() 的 第 一 个 参数 是 一 个 向 量 ， 第 二 个 参数 为 一 个 函数 。 结 果 是 另 
一 个 向 量 ， 该 向 量 和 第 一 个 参数 有 相同 的 长 度 ， 元 素 为 第 二 个 参数 中 的 函数 应 用 到 第 一 个 参数 
中 向 量 的 每 一 个 元 素 后 得 到 的 结果 。 这 意味 着 sapply( ) 的 结果 将 是 填补 变量 PO4 缺失 值 的 向 量 。 
最 后 一 条 峰值 语句 是 使 用 蚂 数 复合 的 另 一 个 例子 。 事 实 上 ， 它 等 价 于 先 用 函数 is. na( ) 的 结果 对 
数据 框 的 行进 行 案 引 ， 然 后 对 选择 结果 的 每 一 个 元 素 通 过 函数 sapply( ) 应 用 函数 filP04( ) 。 

对 线性 关系 的 研究 使 我 们 能 够 填充 一 些 新 的 缺失 值 。 然 而 ， 还 有 几 个 观测 值 含 有 缺失 值 。 可 
以 试 着 探索 案例 数据 中 含有 缺失 值 的 变量 和 和 名义 变 量 之 间 的 关系 。 这 可 以 通过 应 用 R 添加 包 
lattice 中 的 函数 来 绘制 条 件 直方 图 来 进行 。 如 图 2-7 所 示 ， 绘 图 的 代码 如 下 : 


> histogram(“mxPH | season, data = algae) 


Percent of Total 





mxPH 


Fd 2-7 在 变量 season 条 件 下 的 变量 mxPH 的 直方 图 


上 面 代码 绘制 在 不 同和 手 节 变 量 mxPH 的 直方 图 。 每 个 直方 图 对 应 于 某 个 季节 的 观测 值 数据 。 
注意 ， 图 2-7 中 的 季节 顺序 不 是 按照 自然 的 时 间 顺 序 ， 可 以 转换 数据 框 中 因子 季节 标签 的 顺序 ， 
这 样 可 以 使 图 形 中 的 季节 值 为 自然 时 间 顺 序 。 代 码 如 下 : 

> algae$season <- factor(algae$season, levels = c("spring", 

* "summer", "autumn", "winter")) 

默认 情况 下 ， 当 把 名 义 变量 的 值 转换 为 因子 时 ， 参 数 levels 假定 因子 的 水 平 值 按照 字母 顺序 
排列 。 在 本 案例 中 ， 需 要 因子 水 平 的 不 同 顺序 ( 即 季节 的 时 间 顺 序 ) ， 所 以 在 因子 函数 中 需要 指 
定 因 子 水 平 的 排序 方式 。 试 着 执行 以 上 命令 ， 得 到 新 输出 的 直方 图 后 ， 看 看 有 什么 不 同 。 

注意 ， 图 2-7 中 的 直方 图 十 分 类 似 ， 因 此 收集 样本 时 该 年 的 季节 对 变量 mxPH 的 值 没 有 显著 
影响 。 如 果 对 河流 的 大 小 (变量 size) 进行 上 面 类 似 的 分 析 ， 执 行 指令 histogram ( ~ mxPH | 
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size, data = algae) ， 那 么 从 得 到 的 直方 图 中 可 知 较 小 的 河流 有 较 小 的 mxPH 值 。 对 这 种 相关 性 的 
研究 可 以 扩展 到 多 个 名 义 变量 ， 例 如 : 

> histogram( mxPH | size * speed, data = algae) 

它 说 明 河 流 大 小 和 速度 的 所 有 组 合 的 mxPH 值 的 变化 。 需 要 指出 的 是 ， 它 没有 说 明 速 度 较 低 
且 规 模 较 小 河流 的 相关 信息 ”。 仅 有 一 个 样本 具备 这 些 性 质 ， 即 第 48 条 样本 ， 而 变量 mxPH 在 该 
样本 上 的 值 恰恰 缺失 :! 

通过 另 一 种 方式 也 可 以 获得 类 似 的 信息 ， 但 这 次 应 用 变量 的 具体 取 值 : 

> stripplot(size ^ mxPH | speed, data = algae, jitter = T) 

上 面 指令 的 结果 如 图 2-8 Wr. BR jitter =T 说 明 对 了 轴 的 变量 值 进行 小 范围 的 随机 排列 ， 
这 样 可 以 避免 相同 值 之 间 的 相互 重 又 而 导致 失去 具有 某 些 特定 值 的 观察 值 集中 度 的 信息 。 

这 种 类 型 的 分 析 可 以 应 用 到 其 他 含有 缺失 值 的 变量 中 。 而 且 ， 这 种 分 析 是 一 个 繁琐 的 过 程 ， 
它们 有 太 多 的 变量 组 合 需要 分 析 。 不 过 ， 这 种 方法 可 以 应 用 到 有 少量 名 义 变量 的 较 小 数据 集 的 
分 析 中 。 





mxPH 


2-8 词 流 大 小 和 速度 引起 的 mxPH 的 变化 


2.5.4 通过 探索 案例 之 间 的 相似 性 来 填补 缺失 值 

不 同 于 探索 数据 集 列 (变量 ) 之 间 的 相关 性 ， 本 节 尝 试 使 用 行 ( 观察 值 ) 之 间 的 相似 性 来 
填补 缺失 值 。 我 们 可 以 使 用 这 种 方法 来 填补 除去 那 两 个 含有 太 多 NA 值 的 样本 外 的 其 他 缺失 数 

据 。 再 次 载 人 本 案例 数据 来 覆盖 本 他 之 前 部 分 的 代码 〈 假 设 你 已 经 运行 了 前 面 的 代码 ) 。 

> data(algae) 

> algae <- algae[-manyNAe(algae), ] 

本 节 所 描述 的 方法 假设 如 果 两 个 水 样 是 相似 的 ， 其 中 一 个 水 样 在 某 些 变量 上 有 缺失 值 ， 那 
么 该 缺失 值 很 可 能 与 为 一 个 水 样 的 值 是 相似 的 。 为 了 使 用 这 种 直观 的 方法 ， 首 先 定义 相似 性 概 
念 。 相 似 性 经 常 由 描述 观察 值 的 多 元 度量 空间 的 变量 所 定义 。 在 文献 中 有 许多 度量 相似 性 的 指 
标 ， 常 用 的 是 欧式 距离 。 这 个 距离 可 以 非 正 式 地 定义 为 任何 两 个 案例 的 观测 值 之 差 的 平方 和 。 计 


C ”前面 给 出 了 变量 mxPH 的 均值 来 填充 它 的 缺失 值 的 命令 。 如 果 执 行 了 该 命令 ， 就 不 是 这 里 的 情形 了 。 
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算 公式 如 下 





d(x,y) - 2, (x, =y)? (2-1) 
下 面 要 描述 的 方法 将 使 用 这 种 度量 来 寻找 与 任何 含有 缺失 值 的 案例 最 相似 的 10 个 水 样 ， 并 
用 它们 来 填补 缺失 值 。 我 们 考虑 两 种 应 用 这 些 值 的 方法 。 第 一 种 方法 简单 地 计算 这 10 个 最 相近 
的 案例 的 中 位 数 并 用 这 个 中 位 数 来 填补 缺失 值 。 如 果 缺 失 值 是 名 义 变量 (本 案例 的 algae 数据 不 
存在 这 种 情况 ) ， 我 们 采用 这 10 个 最 相似 数据 中 出 现 次 数 最 多 的 值 ( 即 众 数 ) 。 第 二 种 方法 采用 
这 些 最 相似 数据 的 加 权 均 值 。 权 重 的 大 小 随 着 距 待 填补 缺失 值 的 个 案 的 距离 增 大 而 减 小 。 这 里 
用 高 斯 核 函 数 从 距离 获得 权重 。 如 果 相 邻 个 案 距 待 填补 缺失 值 的 个 案 的 距离 为 4， 则 它 的 值 在 加 
权 平 均 中 的 权重 为 ; 
w(d) = e^ (2-2) 
上 面 的 方法 可 以 通过 本 书 添加 包 中 的 函数 knnImputation( ) 来 实现 。 这 个 函数 用 -一 个 欧式 距离 的 
变种 来 找到 距 任 何 个 案 最 近 的 上 个 邻居 。 这 个 变种 的 欧式 距离 可 以 应 用 于 同时 含有 名义 变 量 和 数 
值 变量 的 数据 集中 。 计 算 公式 如 下 :; 


d(x,y) = 
其 中 5.() 是 变量 i 的 两 个 值 之 间 的 距离 ， 即 
1 当 i 是 名 义 变量 且 v， # v 时 
6.(v1 ,v2) = 0 当 i 是 名 义 变 量 且 v，= v, 时 (2-4) 
(v) 当 守 是 数值 变量 时 
在 计算 距离 时 ， 一般 要 对 数值 变量 进行 标准 化 ， 即 
y, - (2-5) 
下 面 说 明 如 何 使 用 knnImputation( ) paar. 
> algae <- knnImputation(algae, k = 10) 


如 果 用 中 位 数 来 填补 缺失 伍 ， 可 以 使 用 如 下 代码 


> algae «- knnImputation(algae, k - 10, meth = "median") 


总 之 ， 通 过 这 些 简单 的 操作 ， 数 据 集中 不 再 含有 NA E (RE), AEA R 的 其 他 函数 进 
行 分 析 做 好 充分 的 准备 工作 。 

当 决 定 用 前 面 介 绍 的 哪 种 方法 来 填补 缺失 值 时 ， 大 多 数 时候 应 该 根据 所 分 析 领 域 的 部 识 来 
确定 。 根 据 个 案 之 间 的 相似 性 来 填补 缺失 值 看 起 来 更 合理 ， 但 这 种 方法 也 存在 其 他 问题 ， 例 如 可 
能 存在 不 相关 的 变量 扭曲 相似 性 ， 甚 至 造成 大 型 数据 集 的 计算 特别 复杂 等 问题 。 另 外 ， 对 于 这 些 
大 数据 集 问 题 ， 可 以 通过 随机 抽取 样本 的 方法 来 计算 它们 之 间 的 相似 性 。 

处 理 缺 失 值 的 参考 文献 

Pyle (1999) 的 《Data Preparation for Data Mining) 一 书 有 关于 数据 控 握 的 数据 准备 的 所 有 事 
项 的 大 量 信息 ， 其 中 就 包括 处 理 缺 失 值 的 内 容 。Weiss 和 Indurkhya (1999) 的 《Predictive Data 
Mining) 一 书 中 有 通用 的 数据 准备 ， 特 别 是 缺失 数据 的 很 好 内 容 。 

Hong (1997) 以 及 Wilson 和 Martinez (1997) 的 文章 是 有 关 不 同类 型 的 变量 间距 离 衡量 很 好 
的 参考 。 更 进一步 的 参考 文献 可 以 在 Torgo (1999a) 的 论文 中 找到 。 


2.6 获取 预测 模型 
本 案例 的 主要 研究 目的 是 预测 140 个 水 样 中 7 种 海 萍 的 出 现 频 率 。 假 设 海藻 频率 是 数值 型 数 


(2-3) 





Y Gu) 
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据 ， 因 此 可 以 考虑 进行 回归 分 析 ”。 简 单 地 说 ， 预 测 任务 是 建立 一 个 模型 来 找到 一 个 数值 变量 和 
一 组 解释 变量 的 关系 。 这 个 模型 既 可 以 根据 未 来 解释 变量 的 值 来 预测 目标 变量 ， 也 可 以 帮助 更 
好 地 理解 问题 中 各 个 变量 之 间 的 相互 联系 。 

本 节 将 研究 适用 于 预测 海藻 的 两 种 不 同 的 模型 多 元 线性 回归 模型 和 回归 树 模 型 。 这 里 主 
要 基于 本 书 中 的 问题 进行 示例 性 的 选择 模型 ， 而 非 基 于 严格 的 模型 选择 步骤 。 不 过 ， 这 两 种 模型 
是 应 用 于 回归 问题 的 较 好 模型 ， 因 为 它们 对 允 近 的 回归 函数 的 形式 有 完全 不 同 的 假设 ,两 类 模 
型 都 易于 解释 ， 而 且 可 以 在 任何 计算 机 上 非常 快速 地 运行 。 但 这 并 不 意味 着 在 进行 数据 挖掘 时 
不 能 尝试 别 的 模型 ， 然 后 用 一 些 严 格 的 模型 选择 方法 (参见 2.7 节 ) 来 选择 其 中 的 一 个 或 者 多 
个 用 于 最 后 预测 140 个 测试 数据 。 

这 两 个 模型 以 不 同 的 方式 解决 缺失 值 问题 。R 中 的 线性 回归 不 能 使 用 有 缺失 值 的 数据 集 ， 而 
回归 树 模 型 可 以 很 自然 地 处 理 这 些 带 有 缺失 值 的 数据 。 因 此 ， 在 建立 模型 之 前 ， 使 用 不 同 的 方法 
来 进行 数据 准备 工作 。 对 线性 回归 模型 ， 我 们 运用 2. 5 节 中 描述 的 方法 进行 数据 预 处 理 ， 然 后 应 
用 线性 回归 模型 。 在 回归 树 模型 中 ， 我 们 将 直接 应 用 原始 的 200 个 水 样 记录 8 。 

在 下 面 的 分 析 中 ， 假 定 140 个 测试 水 样 的 目标 变量 的 真实 值 是 未 知 的 。 因 为 之 前 提 到 ， 本 书 
网 站 中 包括 了 预测 问题 的 答案 ， 这 些 管 案 给 出 了 我 们 最 终 模 型 的 结果 以 供 读者 参考 。 

2. 6.1 多 元 线性 回归 

多 元 线性 回归 模型 是 最 常用 的 统计 数据 分 析 方法 ， 该 模型 给 出 了 一 个 有 关 目 标 变量 与 一 组 
解释 变量 关系 的 线性 函数 。 这 个 线性 函数 是 形 如 应 x X, 这 样 的 项 的 和 ， 这 里 ,是 预测 变量 ,pp， 
是 一 个 常数 。 

正如 之 前 提 到 的 ， 在 多 元 线性 回归 模型 中 没有 处理 缺失 值 的 方法 。 因 此 ， 这 里 将 应 用 根据 训 
练 集 数据 个 案 的 相似 性 (参见 2.5.4 7) 方法 来 填补 缺失 值 。 要 注意 的 是 ， 在 使 用 这 种 填补 方 
法 之 前 ， 首 先 移 除 第 62 条 和 第 199 条 水 样 记录 ， 因 为 在 这 两 条 记录 的 11 个 预测 变量 中 有 6 个 是 
有 缺失 值 的 。 以 下 代码 获取 一 个 不 含有 缺失 值 的 数据 框 : 


> data(algae) 

> algae <- algae[-manyNAs(algae), ] 

> clean.algae «- knnImputation(algae, k = 10) 

在 运行 上 面 的 代码 后 ， 得 到 的 数据 框 clean. algae 将 不 含有 人 缺失 什 。 
接 下 来 ， 将 建立 一 个 用 于 预测 海藻 频率 的 线性 回归 模型 : 

> Im.al <- lm(al ^ ., data = clean.algae[, 1:12]) 


函数 Im () 建立 一 个 线性 回归 模型 ， 其 中 的 第 一 个 参数 给 出 了 模型 的 函数 形式 8。 在 这 个 例 
子 中 ， 函 数 的 形式 是 用 数据 中 的 其 他 所 有 变量 来 预测 变量 al ， 第 一 个 参数 中 的 点 子 “. ”代表 数 
据 框 中 的 所 有 除 al 外 的 变量 。 如 果 需 要 用 预测 变量 mxPH 和 NH4 来 预测 变量 ol ， 就 要 定义 模型 
为 “al ~ mxPH + NH4”。 还 有 许多 其 他 定义 模型 的 方式 ， 这 都 称 为 R 公式 ， 后 边 用 到 时 将 进行 介 
绍 。 参 数 data 是 用 来 设 定 建 模 所 用 的 数据 集 ”。 

PREX lIm( ) 的 结果 是 一 个 含有 线性 模型 信息 的 对 象 。 可 以 通过 下 列 代 码 获 取 更 多 线性 模型 的 
信息 : 


S ”实际 上 ， 由 于 我 们 要 预测 每 种 水 样 的 7 种 频率 值 ， 所 以 我 们 可 以 把 这 个 问题 分 成 7 种 不 同 的 线性 回归 。 
© ”实际 上 ， 由 于 缺失 值 太 志 ， 我 们 只 需要 移 除 两 个 缺失 值 。 

O 其 实 ，R 中 用 于 建立 模型 的 大 部 分 函数 都 是 如 此 。 

名 ”我们 已 经 指出 了 11 种 解释 变量 加 上 表示 海 药 al 列 。 
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> summary(1m.a1) 


Call: 
lm(formula = al ^ ., data = clean.algae[, 1:12]) 


Residuals: 
Min 1Q Median 3Q Max 
-37.679 -11.893 -2.567 7.410 62.190 


Coefficients: 

Estimate Std. Error t value Pr(»|tl) 
(Intercept) 42.942055 24.010879 1.788 0.07537 . 
seasonspring 3.726978 4.137741 0.901 0.36892 
seasonsummer 0.747597 4.020711 0.186 0.85270 
seasonwinter 3.692955 3.865391 0.955 0.34065 
sizemedium 3.263728 3.802051 0.858 0.39179 
Bizesmall 9.682140 4.179971 2.316 0.02166 


* 


speedlow 3.922084 4.706315 0.833 0.40573 
speedmedium 0.246764 3.241874 0.076 0.93941 
mxPH -3.589118 2.703528 -1.328 0.18598 
mn02 1.052636 0.705018 1.493 0.13715 

Cl -0.040172 0.033661 -1.193 0.23426 
NO3 -1.511235 0.551339 -2.741 0.00674 ** 
NH4 0.001634 0.001003 1.628 0.10516 
oP04 -0.005435 0.039884 -0.136 0.89177 
PO4 -0.052241 0.030755 -1.699 0.09109 . 
Chla -0.088022 0.079998 -1.100 0.27265 


Signif. codes: O '#**' 0.001 '**' 0.01 '*' 0.05 '.' 0.1' ' 1 


Residual standard error: 17.65 on 182 degrees of freedom 

Multiple R-squared: 0.3731, Adjusted R-squared: 0.3215 

F-statistic: 7.223 on 15 and 182 DF, p-value: 2.444e-12 

在 解释 函数 summary () 应 用 到 线性 模型 对 象 所 得 到 的 信息 之 前 ， 先 介绍 R 如 何 处 理 3 个 名 
义 变 量 。 当 像 上 面 一 样 进行 模型 构建 时 ，R 会 生成 一 组 的 辅助 变量 ?， 即 对 每 一 个 有 上 个 水 平 的 
因子 变量 ，R 会 生成 -1 个 辅助 变量 。 这 些 辅助 变量 的 值 为 0 或 者 1。 当 辅助 变量 的 值 为 1， 表 
明 该 因子 值 出 现 ， 同 时 表明 所 有 其 他 辅助 变量 的 值 为 0。 如 果 所 有 这 -1 个 辅助 变量 取 值 都 为 
0， 则 表明 因子 变量 的 取 值 为 第 个 剩余 的 值 。 在 以 上 的 汇总 结果 中 ， 可 以 看 到 R 为 因子 变量 
season 生成 了 3 个 辅助 变量 (seasonspring, seasonsummer 和 seasonwinter) 。 如 果 革 个 水 样 的 season 
变量 的 取 值 为 “auumn”， 则 所 有 3 个 辅助 变量 的 值 将 全 部 为 零 。 

对 得 到 的 线性 模型 对 象 应 用 函数 summary( ) ， 将 给 出 所 建立 模型 的 一 些 诊断 信息 。 首 先是 有 
关 线 性 模型 中 数据 拟 合 的 残 差 。 残 差 应 该 是 均值 为 0 并 且 为 正 态 分 布 。( 显 然 残 差 最 好 尽 可 能 
地 小 1) 

对 于 每 个 多 元 线性 回归 方程 的 系数 (变量 )，R 显示 它 的 估计 值 和 标准 误差 (这些 系数 变化 
程度 的 估计 ) 。 为 了 检验 这 些 系数 的 重要 性 ， 可 以 进行 这 些 系数 为 0 的 假设 检验 ， 即 H,B,-0. 
通常 使 用 ; 检验 来 验证 这 些 假设 。R 计算 ; 值 ， 该 值 定义 为 估计 系数 值 与 其 标准 误差 的 比 ， 即 全 。 


B, 
R 将 显示 与 系数 相关 联 的 一 列 (Pr( > 1010). 表示 系数 为 0 这 一 假设 被 拒绝 的 概率 。 因 此 ， 该 


OQ 有 时 也 称 为 虚拟 变量 。 
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值 为 0. 0001 表明 有 99. 99% 的 置信 度 认为 这 个 系数 并 非 为 0。 对 于 每 个 测试 ，R 都 给 出 一 个 标志 
来 表示 相对 应 的 测试 置信 度 水 平 。 总 之 ， 仅 对 于 这 些 在 前 面 有 标志 的 系数 ， 我 们 至 少 有 90% 的 
置信 度 来 拒绝 系数 为 0 这 一 假设 。 

另 一 个 由 R 输出 的 模型 诊断 信息 是 RR (或 者 多 元 尼 或 调整 尺 )。RR 表 明 模 型 与 数据 的 吻合 
度 ， 即 模型 所 能 解释 的 数据 变 差 的 比例 。 尺 越 近 于 1 (几乎 100% 地 解释 模型 数据 的 变 差 ) 就 说 
明 模型 拟 合 得 越 好 ; E 越 小 ， 说 明 模型 拟 合 得 越 差 。 调 整 系数 则 更 严格 ， 它 考虑 回归 模型 中 参数 
的 数量 。 

最 后 ， 我 们 还 可 以 检验 任何 解释 变量 与 目标 变量 没有 依赖 关系 这 一 原 假 设 ， 即 HB, - B, =... 
B. =0。 可 以 通过 把 R 给 出 的 正统 计 值 与 一 个 临界 值 进行 比较 来 进行 检验 。R 提供 一 个 拒绝 原 假 
设 的 置信 度 水 平 。 因 此 p f& 0.0001 表示 有 99. 9996 的 置信 度 确 定 原 假 设 是 错误 的 。 通 常 ， 如 果 
一 个 模型 不 能 通过 这 个 检验 ( 即 得 到 的 p 值 被 认为 太 大 ,例如 大 于 0.1) ， 则 单个 系数 的 上 检验 没 
有 意义 。 

有 些 诊断 信息 也 可 以 通过 绘制 线性 模型 来 进行 检验 。 实 际 上 ， 可 以 用 一 个 类 似 plot(1m. al) 
的 命令 来 得 到 一 系列 的 线性 模型 图 ， 它 们 有 助 于 了 解 模型 的 性 能 。 其 中 的 一 个 图 形 绘制 拟 合 的 
目标 变量 值 和 模型 残 差 的 散 点 图 。 误 差 相 对 较 大 时 ，R 通常 在 该 散 点 图 中 添加 该 误差 相应 的 行 

数 ， 这 样 就 可 以 方便 地 检查 这 些 误差 较 大 的 记录 。R 给 出 的 另外 一 个 图 形 是 误差 的 正 态 Q -Q 
图 ， 通 过 它 可 以 检查 误差 是 否 符合 应 有 的 正 态 分 布 ”。 

该 模型 解释 的 方差 比例 还 不 是 很 理想 (大约 3296 ) 。 还 可 以 拒绝 目标 变量 不 依赖 于 预测 变量 
的 假设 (F 检验 的 p 值 很 小 ) 。 检 查 某 些 系数 的 显著 性 ， 可 能 会 质疑 有 些 变量 是 否 应 该 进入 模型 
中 。 有 多 种 方法 可 以 用 来 精简 回归 模型 。 本 节 将 介绍 向 后 消 元 法 。 

首先 用 函数 anova( ) 来 精简 线性 模型 。 当 将 anova() 应 用 到 简单 线性 模型 时 ， 这 个 函数 提 
供 一 个 模型 拟 合 的 方差 序 贯 分 析 。 也 就 是 说 ， 随 着 公式 中 项 数 的 增加 ， 模 型 的 残 差 平 方 和 减少 。 
对 前 面 建立 的 模型 进行 方差 分 析 ， 结 果 如 下 。 


> anova(lm.al) 


Analysis of Variance Table 


Response: ai 

Df Sum Sq Mean Sq F value Pr(>F) 
season 3 85 28.2 0.0905 0.9651944 
size 2 11401 5700.7 18.3088 5.69e-08 *** 
speed 2 3934 1967.2 6.3179 0.0022244 ** 
mxPH 1 1329 1328.8 4.2677 0.0402613 * 
mn02 1 2287 2286.8 7.3444 0.0073705 ** 
C1 1 4304 4304.3 13.8239 0.0002671 +«« 
N03 1 3418 3418.5 10.9789 0.0011118 ** 
NH4 1 404 403.6 1.2963 0.2563847 
oP04 1 4788 4788.0 15.3774 0.0001246 +++ 
P04 1 1406 1405.6 4.5142 0.0349635 * 
Chla 1 377 377.0 1.2107 0.2726544 


Residuals 182 56668 311.4 


Signif. codes: 0 '*«*' 0.001 '«*' 0.01 '#' 0.05 '. 0.1! ' 1 
上 面 结果 表明 变量 season 对 减少 模型 拟 合 误差 的 贡献 最 小 。 下 面 将 它 从 模型 中 剔除 


O ”在 理想 情况 下 ， 所 有 的 误差 将 在 图 上 显示 为 直线 。 


> 1m2.a1 <- update(1m.al, . 


~ . - season, 
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函数 update( ) 用 于 对 已 有 的 线性 模型 进行 微小 的 调整 。 在 上 面 的 代码 中 ， 应 用 是 数 update( ) 


> summary (1m2.a1) 


Call: 


从 模型 Im. al PERTH season 以 得 到 一 个 新 的 模型 。 新 模型 的 汇总 信息 如 下 : 


lm(formula = ai ^ size + speed + mxPH + mn02 + Cl + NO3 + NH4 + 
oP04 + PO4 + Chla, data = clean.algae[, 1:12]) 


Residuals: 
Min 1Q Median 3Q Max 
-36.460 -11.953 -3.044 7.444 63.730 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) 


(Intercept) 44.9532874 23.2378377 1.934 0.05458 . 
sizemedium 3.3092102 3.7825221 0.875 0.38278 
sizesmall 10.2730961 4.1223163 2.492 0.01358 * 
Bpeedlow 3.0546270 4.6108069 0.662 0.50848 
speedmedium -0.2976867 3.1818585 -0.094 0.92556 
mxPH -3.2684281 2.6576592 -1.230 0.22033 
mn02 0.8011759 0.6589644 1.216 0.22561 

cl -0.0381881 0.0333791 -1.144 0.25407 
NO3 -1.5334300 0.5476550 -2.800 0.00565 ** 
NH4 0.0015777 0.0099951 1.586 0.11456 
oP04 -0.0062392 0.0395086 -0.158 0.87469 
P04 -0.0509543 0.0305189 -1.670 0.09669 . 
Chla -0.0841371 9.0794459 -1.059 0.29096 
Signif. codes: 0 '**#' 0.001 '*«*' 0.01 '*' 0.05 '.' 0.1 '' 1 


Residual standard error: 17.57 on 185 degrees of freedom 

Multiple R-squared: 0.3682, Adjusted R-squared: 0.3272 

F-statistic: 8.984 on 12 and 185 DF, p-value: 1.762e-13 | 

新 模型 的 拟 合 指标 R 提高 到 了 32. 8% ， 仍 然 不 是 太 理想 。 下 面 使 用 anova( ) 函数 对 两 个 模 
型 进行 比较 正式 的 比较 ,但 这 次 使 用 两 个 模型 作为 参数 ， 


> anova(lm.al,1lm2.ai) 


Analysis of Variance Table 


Model 1: al " season + size + speed + mxPH + mnD2 + Cl + N03 + NH4 + 
oP04 + PO4 + Chla 
Model 2: al ~ size + speed + mxPH + mn02 + Cl + NO3 + NH4 + oPO4 + 
PO4 + Chla 
Res.Df RSS Df Sum of Sq 
1 182 56668 
2 185 57116 -3 -448 0.4792 0.6971 


上 面 的 函数 通过 下 检验 对 两 个 模型 进行 方差 分 析 ， 据 此 评估 两 个 模型 是 否 有 显著 不 同 。 这 
种 情况 下 ， 尽 管 误 差 平方 和 减少 了 ( -448), 但 是 比较 结果 说 明 两 者 的 差距 并 不 显著 (显著 性 
值 0. 6971 说 明 两 个 模型 不 同 的 可 能 性 有 30% )。 注 意 ， 新 模型 比较 简单 。 为 了 检查 能 否 移 除 更 
多 的 系数 ， 我 们 再 次 对 lm2. al 模型 使 用 anova( ) 范 数 。 不 断 重复 这 个 过 程 直 到 没有 可 剔除 的 候 
选 系数 。 为 了 简化 向 后 消 元 过 程 ，R 有 一 个 函数 来 执行 上 面 所 有 过 程 。 


F Pr(>F) 
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下 面 的 代码 对 初始 模型 (lm. al) 用 向 后 消 元 方法 得 到 一 个 新 的 线性 模型 。 
> final.lm <- step(lm.ai) 
Start: AIC= 1151.85 


al ~ season + size + speed + mxPH + mn02 + Cl + NOS + NH4 + oPO4 + 
P04 + Chla 


Df Sum of Sq R55 AIC 
- season 3 425 67043 1147 


- speed 2 270 56887 1149 
- oP04 1 b 56623 1150 
- Chla 1 401 67018 1151 
- Cl 1 498 57115 1152 
- mxPH 1 642 67159 1152 


<none> 56617 1152 


^ - mn02 1 650 57267 1152 
- NHÀ 1 799 57417 1153 
- PO4 1 899 57516 1153 
- size 2 1871 58488 1154 
- NO3 1 2286 5B903 1158 


Step: AIC= 1147.33 
al ~ size + speed + mxPH + mn02 + Cl + N03 + NH4 + oPO4 + PO4 + 
Chla 


Df Sum of Sq RSS AIC 
- speed 2 213 57256 1144 


- oP0O4 1 8 57050 1145 
- Chia 1 378 67421 1147 
-mn02 i 427 57470 1147 
- mxPH i 457 67500 1147 
- 0l 1 464 57506 1147 


<none> 57043 1147 


- NH4 1 751 57794 1148 
- PO04 1 869 57902 1148 
=- gize 2 2184 59227 1151 
- N03 1 2353 59396 1153 


= * 十 


Step: AIC 1140.09 
al ~ size + mxPH + Cl + N03 + PO4 


Df Sum of Sq RSS AIC 
<none> 58432 1140 


- mxPH 1 801 69233 1141 
- Cl I 906 59338 1141 
~ NOS 1 1974 60405 1145 
- size 2 2652 61084 1145 
- P04 1 8514 66946 1165 


PAIX step( ) 使 用 Akaike 信息 标准 进行 模型 搜索 。 默 认 情 况 下 ， 搜 索 使 用 向 后 消 元 方法 ， 但 
通过 设置 参数 direction ， 可 以 采用 其 他 的 方法 (参考 该 函数 的 帮助 文档 以 获取 更 多 信息 )。 


号 ”因为 空间 问题 ， 所 以 在 此 处 省 略 了 部 分 step( ) 函数 的 输出 。 
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可 以 通过 下 面 的 代码 来 获得 最 后 模型 的 信息 : 
> summary (final.lm) 


Call: 

lm(formula = al ~ size + mxPH + Cl + N03 + PO4, data = clean.algae[, 
1:12]) 

Residuals: 
Min 1Q Median aq Max 


-28.874 -12.732 -3.741 8.424 62.926 


Coefficients: 

Estimate Std. Error t value Pr(»]|tl) 
(Intercept) 57.28555 20.96132 2.733 0.00687 ++ 
sizemedium 2.80050 3.40190 0.823 0.41141 
sizesmall 10.40636 3.82243 2.722 0.00708 相让 


mxPH =3. 97076 2.48204 -1.600 0.11130 

Cl -0.05227 0.03165 -1.651 0.10028 
NOS -0.89529 0.35148 -2.547 0.01165 * 
PO4 -0.05911 0.01117 -5.291 3.32e-07 *** 


Signif. codes: 0 '*«*' 0.001 '**' 0.01 '*' 0.05 '.' 0.1' ' 1 


Residual standard error: 17.5 on 191 degrees of freedom 
Multiple R-squared: 0.3527, Adjusted R-squared: 0.3324 
F-statistic: 17.35 on 6 and 191 DF, p-value: 5.554e-16 


这 个 模型 所 解释 的 方差 比例 (R^). 仍然 不 是 很 可 观 ， 这 样 的 R REAR ER DL FH Bs B. | 69 
线性 模型 是 不 合适 的 。 K 

多 元 线性 回归 的 参考 文献 

线性 回归 是 最 常用 的 统计 技巧 之 一 。 国 此 ， 大 部 分 的 统计 学 书 藉 都 有 这 一 主题 的 内 容 。 对 于 
深入 的 研究 ， 可 以 参阅 更 专业 的 书籍 。 其 中 的 两 本 涉及 回归 分 析 深 入 内 容 的 书 荐 是 Drapper 和 
Smith (1981), Myers (1990) 的 书 藉 ， 它 们 涵盖 了 你 需要 知道 的 线性 回归 的 绝 大 部 分 内 容 。 
2.6.2 回归 树 

本 节 给 出 R 中 的 男 一 种 回归 模型 。 即 本 节 描 述 了 如 何 通 过 建立 回归 树 (参见 Breiman et al. , 
1984) 来 预测 海藻 al 出 现 的 频率 。 由 于 这 类 模型 能 够 处 理 缺 失 值 ， 所 以 这 里 只 需要 如 前 面 所 述 
移 除 62 号 和 199 号 水 样 即 可 。 

建立 回归 树 模 型 的 代码 如 下 : 

> library(rpart) 

> data(algae) 

> algae <- algae[-manyNAs(algae), J 

> rt.al <- rpart(al ^ ., data = algae[, 1:12]) 

第 一 条 指令 用 于 加 载 R 中 的 rpart 添加 包 (Themeau and Atkinson, 2010), ， 该 包 中 有 回归 树 
的 实现 ?。 最 后 一 条 指令 用 于 获取 回归 树 。 注 意 ， 这 里 函数 应 用 的 参数 形式 与 Im( ) 函数 的 参数 
EXHI]. PREX rpart( ) 的 第 二 个 参数 给 出 用 于 建立 回归 树 的 数据 集 。 

WH rt. al 的 内 容 如 下 : 


> rt.al 


ne 198 


O 实际 上 ， 还 有 为 外 一 个 添加 包 也 可 以 实现 此 类 模型 ,但 是 在 这 个 案例 中 ， 我 们 只 使 用 pat 程序 。 
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node), split, n, deviance, yval 
* denotes terminal node 
1) root 198 90401.290 16.996460 
2) P04>=43.818 147 31279.120 8.979592 
4) Cl»-7.8065 140 21622.830 7.492857 
8) oP04>=51.118 84 3441.149 3.846429 * 
9) oPO4< 51.118 56 15389.430 12.962500 
18) mn02»-10.05 24 1248.673 6.716667 * 
19) mn02« 10.05 32 12502.320 17.646870 
38) NO3>=3.1875 9 257.080 7.866667 * 
39) NO3< 3.1875 23 11047.500 21.473910 
78) mn02« 8 13 2919.549 13.807690 * 
79) mn02»-8 10 6370.704 31.440000 * 
5) Cl< 7.8065 7 3157.769 38.714290 * 
3) PO4< 43.818 51 22442.760 40.103920 
6) mxPH« 7.87 28 11452.770 33.450000 
12) mxPH>=7.045 18 5146.169 26.394440 + 
13) mxPH« 7.045 10 3797.645 46.150000 * 
7) mxPH»-7.87 23 8241.110 48.204350 
14) PO4>=15.177 12 3047.517 38.183330 * 
15) PO4< 15.177 11 2673.945 59.136360 * 

NAME tee Ee eit, ACT RH ATES Se, 这样 导 
致 不 是 所 有 的 变量 都 会 在 树 中 出 现 。 树 从 R 标 为 1 的 根 结 点 开始 读 ，R 在 这 个 结 点 中 提供 数据 的 
相关 信息 。 即 ， 可 以 在 该 结 点 中 看 到 一 共有 198 个 水 样 (用 于 构建 树 的 训练 集 数据 样本 量 )， 在 
这 198 个 水 样 中 ,海藻 al 出 现 的 平均 频率 为 16. 99， 相 对 平均 值 的 偏差 为 90 401.29。 树 的 每 个 
结 点 有 两 个 分 支 ， 这 与 预测 变量 的 检验 结果 有 关 。 例 如 ， 在 根 结 点 中 有 一 个 相应 于 测试 “PO4 = 
43. 818” 为 真 (含有 147 个 水 样 ) PRIM (CR 输出 中 标 为 “2”) ， 同 时 也 有 另 一 个 分 支 包含 
剩余 的 51 个 不 满足 这 个 测试 的 水 样 (RB 标记 为 “3”)。 从 结 点 2 有 两 个 分 支 分 别 连 接 到 结 点 4 和 
结 点 5， 具 体 到 哪个 结 点 由 对 变量 Cl 的 检验 来 确定 。 不 断 进 行 以 上 的 检验 ， 直 到 达到 某 一 个 叶 结 
点 ， 这 些 叶 结 点 在 R 中 由 星 号 标记 出 来 。 在 叶 结 点 ， 我 们 就 可 以 对 树 进行 预测 了 。 也 就 是 说 ， 
如 果 我 们 想 建 立 一 个 回归 树 来 预测 某 个 水 样 的 频率 ， 呈 要 从 根 结 点 开始 根据 对 该 水 样 检 验 的 结 
果 ， 追 踪 某 个 分 支 ， 直 到 时 结 点 。 叶 结 点 目标 变量 的 平均 值 就 是 树 的 预测 值 。 

我 们 也 可 以 得 到 回归 树 的 图 形 表 示 。 可 以 用 函数 plot( ) AMAR text( ) 对 树 对 象 绘 图 即 可 。 这 
两 个 函数 有 允 个 参数 来 控制 树 的 可 视 化 。 为 了 方便 地 得 到 漂亮 的 树 的 可 视 化 图 形 ， 本 书 的 R JS 
加 包 中 提供 了 函数 prettyTree( ) 。 对 上 面 得 到 的 树 对 象 应 用 该 函数 ， 得 到 图 形 如 图 2-9 所 示 。 


> prettyTree(rt.al) 


PK summary( ) 也 可 以 用 于 树 对 象 。 此 哺 数 将 给 出 许多 有 关于 树 的 测试 信息 、 其 他 可 能 考 
虑 的 测试 以 及 中 间 分 割 等 。 这 里 的 中 间 分 割 是 R 回归 树 处 理 缺 失 值 的 一 种 方法 。 

通常 分 为 两 步 来 建立 回归 树 。 最 初 ， 生 成 一 棵 较 大 的 树 ， 然 后 通过 统计 佑 计 删 除 底部 的 
一 些 结 点 来 对 树 进行 修 前 。 这 个 过 程 的 目的 是 防止 过 度 拟 合 。 事 实 上 ， 一 个 过 度 大 的 树 一 般 
会 很 好 地 对 训练 集 数据 进行 拟 合 ， 但 是 它 会 拟 合 给 定数 据 集 中 的 一 些 虚假 的 关系 ， 因 此 当 把 
该 模型 用 于 新 数据 的 预测 时 ， 预 测 性 能 很 差 。 在 许多 建 模 技术 中 存在 过 度 拟 合 问题 ， 尤 其 是 
当 需 要 允 近 的 函数 的 假设 条 件 不 是 很 严格 的 时 候 。 对 于 要 求 不 严格 的 模型 ， 虽然 它 们 的 要 求 
不 高 ， 有 广泛 的 应 用 范围 ,但 却 存 在 过 度 拟 合 问题 ， 所 以 它 需 要 一 个 事后 统计 估计 步骤 来 避 
免 过 度 拟 合 问题 。 


o ”不同 值 与 平均 值 之 差 的 平方 和 。 
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图 2-9 ”预测 海藻 al 的 回归 树 


上 面 使 用 mpar( ) 函数 构建 树 ， 在 构建 树 的 过 程 中 ， 当 给 定 条 件 满 足 时 构建 过 程 就 停止 。 当 
下 列 条 件 满足 时 ， 树 构建 过 程 将 结束 : 1) 偏差 的 减少 小 于 某 一 个 给 定 界限 值 时 ; 2) 当 结 点 中 
的 样本 数量 小 于 某 个 给 定 界限 时 ; 3) 当 树 的 深度 大 于 一 个 给 定 的 界限 值 。 上 面 3 个 界限 值 分 别 
由 rpart() 盟 数 的 三 个 参数 (cp, minsplit, maxdepth) 来 确定 。 它 们 的 默认 值 分 别 为 0.01、20 
和 30。 如 果 要 避免 树 的 过 度 拟 合 问题 ， 就 要 经 常 检查 这 些 默认 值 的 有 效 性 。 这 可 以 通过 对 得 到 
的 树 采取 事后 修剪 过 程 来 进行 。 

rpart 添加 包 实 现 了 一 种 称 为 复杂 度 损失 修剪 的 修剪 方法 (Breiman et al. ，1984 ) 。 这 个 方法 
使 用 R 在 每 个 树 结 点 计算 的 参数 值 cp。 这 种 修 前 方法 试图 估计 cp 值 以 确保 达到 预测 的 准确 性 和 
树 的 大 小 之 间 的 最 佳 折 中 。 给 出 一 个 由 哨 数 mpart( ) 建立 的 回归 树 ， 及 可 以 生成 这 棵 树 的 一 些 子 
树 ， 并 估计 这 些 树 的 性 能 。 这 些 信息 可 以 通过 函数 printep() 得 到 ” : 

> printcp(rt.al) 


Regression tree: 
rpart(formula = al ^ ., data = algae[, 1:12]) 


Variables actually used in tree construction: 
[1] Cl  mn02 mxPH NO3 op04 PO4 


Root node error: 90401/198 = 456.57 


n= 198 

CP nsplit rel error xerror xstd 
1 0.405740 0 1.00000 1.00932 0.12986 
2 0.071885 1 0.59426 0.73358 0.11884 
3 0.030887 2 0.52237 0.71855 0.11518 
4 0.030408 3 0.49149 0.70161 0.11585 


C. ALG aR plotep(n, al) 以 图 形 方 式 来 得 到 类 似 的 信息 。 
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5 0.027872 4 0.46108 0.70635 0.11403 
6 0.027754 5 | 0.43321 0.69618 0.11438 
7T 0.018124 6 0.40545 0.69270 0.11389 
B 0.016344 T 0.38733 0.67733 0.10892 
9 0.010000 9  À 0.35464 0.70241 0.11523 


由 rpart() 函数 建立 的 回归 树 是 上 面 列表 中 的 最 后 一 个 树 ( 树 9)。 这 个 树 的 cp 值 为 0.01 
(参数 cp 的 默认 值 )， 该 树 包 括 九 个 测试 和 一 个 相对 误差 值 (与 根 结 点 相 比 ) 0.354。 然 而 ，R 
应 用 10 折 交 叉 验证 的 内 部 过 程 ， 评 估 该 树 的 平均 相对 误差 为 0.702 41 +0. 115 23。 根 据 这 些 更 
稳健 的 性 能 估计 信息 ， 可 以 避免 过 度 拟 合 问题 。 可 以 看 到 ，8 SMH MMAR (0.677 33) 
最 小 。 另 一 个 选择 标准 是 根据 1- SE 规则 来 选择 最 好 的 回归 树 ， 这 包括 检查 交叉 验证 的 估计 误差 
(“xerror” 列 )， 以 及 标准 误差 (“xstd” 列 )。 在 这 个 案例 中 ，1 -SE 规则 树 是 最 小 的 树 ， 误 差 小 
于 0.677 33 +0. 108 92 20.786 25， 而 由 1 检验 的 2 号 树 的 估计 误差 为 0.733 58。 如 果 我 们 选择 
这 个 树 而 不 是 R 建议 的 树 ， 我们 就 可 以 通过 使 用 不 同 的 cp 值 ”来 建立 这 棵 树 。 

> rt2.al <- prune(rt.al, cp = 0.08) 

> rt2.al 


n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 198 90401.29 16.996460 
2) P04>=43.818 147 31279.12 8.979592 * 
3) PO4< 43.818 51 22442.76 40.103920 =+ 


在 本 书 添 加 包 中 的 rpartXse() 函数 可 以 自动 运行 这 个 过 程 ， 它 的 参数 se 的 默认 值 为 1。 
> (rt.al <- rpartXse(al ”.，data = algae[, 1:12))) 
n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 198 90401.29 16.996460 
2) P04>=43.818 147 31279.12 8.979592 * 
3) PO4< 43.818 51 22442.76 40.103920 + 


可 以 应 用 R Bf) PR 2X snip. rpart( ) 来 交互 地 对 树 进行 修剪 。 这 个 函数 可 以 通过 两 种 方式 生成 一 
个 修剪 过 的 回归 树 。 第 一 种 方法 是 指出 需要 修剪 那个 地 方 的 结 点 号 〈 可 以 通过 输出 树 对 象 来 得 
EA HAAS ) : 

> first.tree <- rpart(al ^ ., data = algae[, 1:12]) 

> snip.rpart(first.tree, c(4, 7)) 

n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


© 注意 ,你 可 能 在 列 “xeror” 和 列 “xstd” 得 到 不 同 的 数值 。 交 互 验证 估计 值 是 通过 随机 抽样 得 到 的 ， 这 意味 着 
你 的 抽样 可 能 和 这 里 的 不 同 ， 因 此 得 到 的 结果 也 是 不 同 的 。 
O 事实 上 ， 可 以 用 它 对 应 的 cp 值 和 它 上 面 的 那 棵 树 的 cp 值 之 间 的 任何 数值 。 


1) root 198 90401.290 16.996460 
2) P04»-43.818 147 31279.120 8.979592 


4) Cl>=7.8065 140 21622.830 7.492857 * 


5) Cl< 7.8065 7 3157.769 38.714290 * 
3) PO4< 43.818 51 22442.760 40.103920 
6) mxPH« 7.87 28 11452.770 33.450000 


12) mxPH>=7.045 18 5146.169 26.394440 * 
13) mxPH« 7.045 10 3797.645 46.150000 * 


7T) mxPH>=7.87 23 8241.110 48.204350 * 
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这 个 函数 与 mpar( ) 函数 一 样 返回 一 个 树 对 象 ， 所 以 可 以 用 形 如 my. tree < - snip. rpart 


(first. tree,c(4,7)) 这 样 的 代码 来 保存 这 个 修剪 过 的 树 。 


另外 ， 也 可 以 在 图 形 窗口 下 使 用 snip. rpart() 函数 。 首 先 ， 画 出 回归 树 ， 然 后 调用 没有 第 二 


> prettyTree(first.tree) 
> snip.rpart(first.tree) 


node number: 2 n= 147 
response= 8.979592 
Error (dev) = 31279.12 

node number: 6 n= 28 
response= 33.45 
Error (dev) = 11452.77 

ne 198 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 198 90401.290 16.996460 
2) P04»243.818 147 31279.120 8.979592 + 
3) PO04« 43.818 51 22442.760 40.103920 
6) mxPH« 7.87 28 11452.770 33.450000 * 
T) mxPH»27.87 23 8241.110 48.204350 


14) PO4>=15.177 12 3047.517 38.183330 + 
15) PO4< 15.177 11 2673.945 59.136360 * 


在 上 例 中 ， 点 击 并 修 前 了 结 点 2 和 结 点 6。 
回归 树 的 参考 文献 


个 参数 的 因数 。 如 果 点 击 回归 树 的 某 些 结 点 ，R 会 在 控制 台 输 出 这 些 结 点 的 信息 。 如 果 继 续 点 击 
这 个 结 点 ，R 就 在 这 个 结 点 对 树 进行 修剪 ”。 可 以 在 图 形 窗口 继续 修 前 回归 树 ， 直 到 右 击 结束 这 
一 交互 式 的 修剪 过 程 。 调 用 该 函数 的 结果 仍然 是 一 个 树 对 象 : 


如 果 需 要 更 加 全 面 的 学 习 回 归 树 ， 可 以 参考 Breiman 等 (1984) HE, iX 3578 2 bb fo 


归 树 的 标准 套 考 文献 。 对 一 些 读 者 而 言 ， 本 书 的 方法 可 能 有 些 太 正式 〔 至 少 某 些 章节 )。 无 论 如 
何 ， 这 本 书 都 绝对 是 一 本 极 好 的 参考 书 ， 尽 管 它 更 偏重 于 统计 文献 。 从 机 器 学 习 方 面 而 言 ，Quinlan 
(1993) 的 有 关 C4.5 的 书 是 一 本 有 美 分 类 树 的 很 好 的 参考 书 。 本 书 作 者 的 博士 论文 (Torgo，1999a) 
给 出 了 很 好 的 回归 树 入 门 知识 和 高 级 主题 ， 体 可 以 从 作者 网 站 免费 下 载 。 论 文中 也 介绍 了 其 他 基于 
树 的 模型 ， 它 们 的 目的 是 在 叶 结 点 用 更 复杂 的 模型 来 提高 回归 树 的 精确 度 (Torgo，2000)。 


2.7 模型 的 评价 和 选择 


2.6 节 给 出 了 本 案例 的 两 个 预测 模型 的 例子 。 最 明显 的 问题 是 ， 应 该 使 用 娜 一 个 模型 来 获得 


& ”注意 ， 因 为 回归 树 的 图 片 没 有 更 新 ， 所 以 你 不 会 在 图 形 窗口 看 到 修剪 回归 树 的 过 程 。 
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7 种 海藻 的 140 个 测试 样品 的 预测 。 为 了 回答 这 个 问题 ， 需 要 在 可 供 选 择 的 模型 空间 中 指定 一 些 
模型 的 偏好 标准 ， 也 就 是 说 ， 需 要 详细 说 明 应 该 如 何 评价 模型 的 性 能 。 


有 多 种 评价 (和 比较 ) 模型 的 标准 。 其 中 最 流行 的 标准 是 计算 模型 的 预测 性 能 。 当 然 还 有 


其 他 衡量 模型 的 标准 ， 例 如 模型 的 可 解释 性 ， 还 有 对 大 型 数据 挖 据 特别 重要 的 标准 ， 即 模型 的 计 
算 效率 。 


回归 模型 的 预测 性 能 是 通过 将 目标 变量 的 预测 值 与 实际 值 进行 比较 得 到 的 ， 并 从 这 些 比较 


中 计算 某 些 平均 误差 的 度量 。 一 种 度量 方法 是 平均 绝对 误差 (MAE)。 下 面 描述 如 何 获 得 2.6 5 
中 两 个 模型 (线性 回归 和 回归 树 ) 的 平均 绝对 误差 。 第 一 步 ， 获 取 需 要 评价 模型 预测 性 能 的 测 
试 集 个 案 的 预测 值 。 在 R 中 ， 要 获得 任何 模型 的 预测 ， 就 要 使 用 蚂 数 predict( ) 进行 预测 。 函 数 
”| prediet( ) 是 一 个 泛 型 函数 ， 它 的 一 个 参数 为 需要 应 用 的 模型 ， 另 一 个 参数 为 数据 的 测试 集 ， 输 
出 结果 为 相应 的 模型 预测 值 : 


> lm.predictions.al1 <- predict(final.lm, clean.algae) 
> rt.predictions.al <- predict(rt.al, algae) 


上 面 两 个 命令 将 输出 2.6 PEN Re al 的 两 个 模型 的 预测 值 。 注 意 ， 因 为 原始 训 


练 集 数据 含有 缺失 值 ， 所 以 在 线性 回归 模型 中 使 用 的 数据 是 数据 框 clean. algae, 


得 到 模型 的 预测 值 后 ， 就 可 以 计算 出 其 平均 绝对 误差 ， 如 下 所 示 ; 
> (mae.al.lm <- mean(abs(]ln.predictions.al - algae[, "al"]))) 


[1] 13.10681 
> (mae.al.rt <- meen(abs(rt.predictions.ai1 - algae[, "ali"]))) 


[1] 11.61717 
男 一 种 流行 的 误差 度量 是 均 方 误差 (MSE)。 可 以 由 下 列 代码 计算 均 方 误差 ;: 
> (mse.ai.lm <- mean((lm.predictions.ai - algae[, "a1"])^2)) 


[1] 295.5407 
> (mse.al.rt <- mean((rt.predictions.ai - algae[, "a1"])^2)) 


[1] 271.3226 
后 一 种 误差 度量 方法 的 不 足 之 处 是 : 误差 值 和 目标 变量 的 单位 不 统一 ， 因 此 从 用 户 的 角度 


看 ， 这 种 误差 不 好 解释。 即使 应 用 平均 绝对 误差 (MAE) 来 度量 误差 .问题 是 如 和 何 判 断 模型 的 
得 分 是 好 还 是 差 。 能 够 解决 这 一 问题 的 误差 度量 是 标准 化 后 的 平均 绝对 误差 (NMSE)。 这 一 统 
计量 是 计算 模型 预测 性 能 和 基准 模型 的 预测 性 能 之 间 的 比率 。 通 常 末 用 目标 变量 的 平均 值 来 作 
为 基准 模型 ， 代 码 如 下 : 


> (nmse.ai.lm <- mean((l1m.predictions.ai-algae[,'a1'])^2)/ 


+ mean ( (nean (algae[,'ai'])-algae[,'a1'])~2)) 
[1] 0.6473034 
> (nmse.al.rt <- mean((rt.predictions.ai-algae[,'al'])^2)/ 
+ mean ( (mean (algae[,'a1'])-algae[,'a1'])^2)) 
[1] 0.5942601 


NMSE 是 一 个 比值， 其 取 值 范围 通常 为 0 ~1。 如 果 模 型 表现 优 于 这 个 非常 简单 的 基准 模型 预 


Wi, I-A NMSE 应 明显 小 于 1。NMSE 的 值 越 小 ， 模 型 的 性 能 就 越 好 。NMSE 的 值 大 于 1， 意 味 着 
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模型 预测 还 不 如 简单 地 把 所 有 个 案 的 平均 值 作为 预测 值 ! 
ARH RDP, RE reer eval( ) 用 来 计算 线性 回归 模型 的 性 能 度量 指标 。 下 面 
给 出 应 用 该 函数 一 个 例子 。 可 以 查找 该 旺 数 的 帮助 文档 来 获取 这 个 毅 数 的 不 同 用 法 。 


> regr.eval(algae[, "ai"], rt.predictions.al, train.y = algae[, 
+ "n1 "]) 


mae mse rmse nmse nmae 
11.6171709 271.3226161 16.4718735 0.5942601 0.6953711 


可 视 化 地 查看 模型 的 预测 值 将 更 加 有 趣 。 一 种 方法 是 绘制 误差 的 散 点 图 。 图 2-10 给 出 了 对 
两 种 模型 的 预测 值 的 可 视 化 分 析 ， 这 是 由 以 下 的 代码 产生 的 : 


> old.par <- par(mfrow = c(1, 2)) 

> plot(lm.predictions.ai, algae[, "ai"], main = "Linear Model", 

* xlab = "Predictions", ylab = "True Values") 

> abline(0O, 1, lty = 2) 

> plot(rt.predictions.al, algae[, "ai"], main = "Regression Tree", 
* xlab = "Predictions", ylab = "True Values") 

> abline(0, 1, lty = 2) 

» par(old.par) 


True Valid 





-10 0 10 20 230 40 10 15 20 25 30 35 


Predictions Predictions 


图 2-10 ”模型 预测 值 和 真实 值 的 散 点 图 


从 图 2-10 中 可 知 ， 这 两 个 模型 在 许多 个 案 上 的 性 能 比较 差 。 在 理想 的 情况 下 ， 模 型 对 所 有 
的 案例 做 出 正确 的 预测 时 ， 图 中 的 所 有 圈 应 该 在 虚线 上 ， 这 条 虚线 是 通过 函数 abline(0,1,lty = 
2) 来 绘制 的 。 这 条 虚线 穿 过 坐标 系 的 原点 ， 代 表 x 坐标 与 y 坐标 相等 的 点 集 。 图 2-10 中 每 个 圆 
BH E x 坐标 和 y 坐标 分 别 代表 目标 变量 的 预测 值 和 真实 值 ， 如 果 它 们 相等 ， 那 么 这 些 圆 圈 就 会 落 
在 这 条 理想 的 直线 上 。 正 如 从 图 2- 10 中 所 观察 到 的 ， 情 况 并 非 如 此 ! 可 以 用 函数 identify() 来 
检查 那些 预测 特别 差 的 样本 点 ， 该 函数 可 以 让 用 户 通过 互动 方式 点 击 图 形 中 的 点 ， 代 码 如 下 : 

> plot(1m.predictions.ail,algae[,'ai'],main-"Linear Model", 

* xlab="Predictions",ylab="True Values") 

> abline(0,1,1ty-2) 

> algae[identify (lm. predictions.a1,algae[,'a1']),] 

运行 上 面 的 代码 ， 并 在 图 形 上 点 击 ， 然 后 右 击 结束 交互 过 程 后 ， 应 该 看 到 相应 于 所 点 击 的 圆 
图 的 海 药 数 据 框 的 行 数据 一 一 因为 这 里 用 晴 数 identify( ) 得 到 的 向 量 来 索引 海藻 数据 框 。 

观察 图 2-10 的 左 图 ， 它 对 应 的 是 线性 回归 模型 。 注 意 ， 有 一 些 个 案 的 海 莹 频率 的 预测 值 为 
负 值 。 在 本 案例 中 ， 海 藻 在 出 现 频率 为 负 值 时 没有 意义 〈 至 少 是 零 ) 。 因 此 ， 可 以 用 以 上 知识 和 
海藻 频率 的 最 小 可 能 取 值 来 优化 上 面 的 线性 回归 模型 。 
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> sensible.lm.predictions.ai <- ifelse(lm.predictions.al < 


+ 0, O, 1m.predictions.a1) 
> regr.eval(algae[, "ai"], lm.predictions.al, stats = c("mae", 
4 "mse")) 

mae mse 


13.10681 295.54069 


> regr.eval(algae[, "ai1"], sensible.lm.predictions.al, stats = c("mae", 
* "mse")) 
mae mse 

12.48276 286.28541 

上 面 代码 应 用 函数 ifelse( ) 来 改进 模型 的 预测 结果 。 该 函数 有 三 个 参数 ， 第 一 个 参数 是 逻辑 
条 件 ， 第 二 个 参数 是 当 退 辑 条 件 为 真 时 函数 的 取 值 ， 第 三 个 参数 是 当 逻 辑 条 件 不 成 立时 函数 的 
取 值 。 注 意 ， 通 过 这 一 小 的 细节 就 提高 了 模型 的 性 能 。 

根据 以 上 计算 出 的 模型 的 性 能 指标 ， 我 们 倾向 于 选择 回归 树 模型 来 预测 140 个 测试 样品 
的 频率 值 ， 因 为 该 模型 有 较 低 的 NMSE 值 。 然 而 ， 这 种 推理 有 一 个 缺陷 。 我 们 的 分 析 目 标 是 
获得 能 够 对 140 个 测试 样品 的 频率 进行 预测 的 最 佳 模型 。 由 于 不 知道 这 些 测试 样本 的 目标 变 
量 值 ， 所 以 我 们 需要 估计 娜 一 个 模型 将 在 这 些 测试 样本 上 有 较 好 的 性 能 。 这 里 的 关键 问题 是 
在 不 知道 数据 集 真实 的 目标 变量 取 值 时 ， 要 获得 模型 在 该 数据 集 上 可 靠 的 性 能 估计 。 使 用 已 有 
的 训练 数据 获得 模型 的 性 能 指标 (如 前 文 所 进行 的 过 程 ) 是 不 可 上 靠 的 ， 因 为 这 些 计 算是 有 偏 的 。 
实际 上 ， 有 的 模型 可 以 很 容易 地 获得 训练 数据 的 零 误差 预测 。 然 而 ,模型 的 这 一 优秀 性 能 很 难 推 
广 到 目标 变量 值 未 知 的 新 样本 上 。 正 如 之 前 所 述 ， 这 种 现象 通常 称 为 过 度 拟 合 训练 数据 。 因 此 ， 
为 了 选择 一 个 合适 的 模型 ， 我 们 需要 获得 模型 在 未 知 数据 上 预测 性 能 的 更 加 可 靠 的 估计 。 上 折 交 
叉 验 证 是 获得 模型 性 能 可 靠 估 计 的 一 种 常用 方法 ， 它 适用 于 像 本 案例 这 样 的 小 数据 集 。 这 种 方 
法 可 以 简要 介绍 如 下 。 首 先 获 取 上 个 同样 大 小 的 随机 训练 数据 子 集 。 对 于 这 上 个 子 集 的 每 一 个 子 
集 ， 用 除去 它 之 外 的 其 余 上 -1 个子 集 建立 模型 ,然后 用 第 卡子 集 来 评估 这 个 模型 ， 最 后 存储 模 
型 的 性 能 指标 。 对 其 余 的 每 个 子 集 重复 以 上 过 程 ， 最 后 有 上 个 性 能 指标 的 测量 值 ， 这 些 性 能 指标 
是 通过 在 没有 用 于 建 模 的 数据 上 计算 得 到 的 ， 这 也 是 关键 之 处 。k 折 交 义 验证 估计 是 这 上 个 性 能 
指标 的 平均 。 常 见 的 选择 是 k=10。 有 时 我 们 会 重复 进行 多 次 上 折 交 叉 验 证 以 获得 更 加 可 徘 的 
估计 。 

总 之 ， 当 面 对 一 项 预测 任务 时 ， 需 要 做 出 下 列 决策 : 

e 为 预测 任务 选择 模型 (同一 算法 的 不 同 参 数 设 定 也 可 以 认为 是 不 同 的 模型 ) 。 

e 选择 比较 模型 性 能 的 评估 指标 。 

e 选择 获取 评估 指标 的 可 靠 估 计 的 实验 方法 。 

在 书 提供 的 R BIN, HE T eA experimentalComparison() ， 它 用 来 进行 模型 的 选择 和 比 
较 任 务 。 它 可 以 和 不 同 的 估计 方法 一 起 使 用 ， 如 交叉 验证 法 。 这 个 函数 有 三 个 参数 : 1) 用 于 比 
较 的 数据 集 ; 2) 需要 比较 的 可 选 模型 ; 3) 实验 过 程 中 的 系数 。 我 们 以 海藻 数据 集 为 例 ， 用 它 
来 比较 线性 回归 模型 和 几 个 不 同 的 回归 树 模 型 。 

PRX experimentalComparison( ) 适用 于 任何 模型 和 任何 数据 ， 在 这 个 意义 上 ， 它 是 一 个 泛 型 
蚂 数 。 使 用 者 提供 一 组 实现 待 比较 的 模型 的 函数 。 其 中 每 一 个 函数 应 该 对 训练 集 和 测试 集 实现 
一 个 完整 的 “训练 + 测试 + 评估 ”周期 。 在 评估 过 程 的 每 一 次 迭代 中 ， 调 用 这 些 函 数 。 这 些 孙 
数 应 该 返回 一 个 向 量 ， 其 元 素 为 交叉 验证 中 用 户 需 要 的 性 能 评估 指标 值 。 下 面 给 出 两 个 目标 模 
FY FY) PRA - 
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cv.rpart <- function(form,train,test,...) { 

m <- rpartXse(form,train,...) 

p <€- predict (m,test) 

mse <- mean((p-resp(form, test) )“2) 

c (nmse=mse/mean ( (mean (resp(form, train))-resp(form,test))^2)) 


v.lm <- function(form,train,test,...) { 

m <- 1m(form,train,...) 

p <- predict (mn, test) 

p <- ifelse(p < 0,0,p) 

mse <- mean((p-resp(form, test) )~2) 
+  c¢(nmse=mse/mean((mean(resp(form, train))-resp(form, test) )*2)) 
+} 


在 这 个 示例 中 ， 假 设 用 NMSE 作为 线性 回归 模型 和 回归 树 模 型 的 性 能 评估 指标 。 所 有 这 些 用 
户 定 义 的 消 数 的 前 三 个 参数 应 该 是 公式 、 训 练 数据 和 测试 数据 。 实 验 过 程 调用 函数 时 可 以 应 用 
的 其 他 参数 包括 要 评估 模型 所 需要 的 参数 。 虽 然 要 评估 的 两 个 模型 应 用 了 完全 不 同 的 学 习 算法 ， 
但 是 两 个 模型 函数 都 有 同样 的 “训练 + 测试 + 评估 ”周期 。 函 数 的 定义 中 还 包括 一 个 特殊 参数 
“...”。 这 个 特殊 参数 可 以 用 在 任意 的 R 函数 中 ， 它 允许 一 个 特定 函数 具有 可 变 的 参数 。 其 实 ， 
“... ”这 个 参数 结构 是 一 列表 ， 它 用 来 获取 传递 给 肾 数 的 前 三 个 命名 参数 之 后 的 所 有 参数 。 这 
个 结构 用 于 给 实际 模型 传递 所 需要 的 额外 参数 (例如 在 函数 rpartXse( ) 中 和 函数 Im) 中 )。 这 
些 晴 数 的 男 一 个 特殊 之 处 是 应 用 本 书 添加 包 提 供 的 晃 数 resp( )， 它 用 于 根据 公式 获得 数据 集 的 
目标 变量 值 。 

在 定义 好 用 于 模型 学 习 和 测试 的 晒 数 后 ， 就 可 以 按 下 列 代 码 进 行 模型 的 交叉 验证 比较 : 


> res «- experimentalComparison( 


> 
+ 
+ 
+ 
+ 
+} 
>c 
+ 
+ 
+ 
+ 


+ c(dataset(al ~ .,clean.algae[,1:12],'a1')), 
+ c(variants('cv.1m'), 

+ variants (‘cv.rpart',se=c(0,0.5,1))), 

+ cvSettings (3,10, 1234)) 


iE CROSS VALIDATION EXPERIMENTAL COMPARISON 3HHHH 
** DATASET :: al 


++ LEARNER :: cv.lm variant -> cv.lm.defaults 
Repetition 1 

Fold: 1 2 3 4 5 6 7 8 9 10 

Repetition 2 

Fold: 12 3 4 5 6 7 8 9 10 
Repetition 3 

Fold: 12 3 4 5 6 7 8 9 10 


++ LEARNER :: cv.rpart variant -> cv.rpart.vl 
Repetition 1 

Fold: 1 2 3 4 5 6 7 8 9 10 
Repetition 2 

Fold: 1 2 3 4 b 6 7T 8 9 10 
Repetition 3 

Fold: 1 2 3 4 5b 6 7 8 9 10 


++ LEARNER :: cv.rpart variant -> cv.rpart.v2 
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Repetition 1 
Fold: 1 2 3 4 5 6 7 8 9 10 
Repetition 2 
Fold: 1 2 3 4 5 67 8 9 10 
Repetition 3 
Fold: 12 3 4 5 6 7T 8 9 10 


++ LEARNER :: cv.rpart variant -> cv.rpart.v3 
Repetition 1 

Fold: 1 2 3 4 5 6 7 8 9 10 
Repetition 2 

Fold: 1 2 3 4 5 6 7 8 9 10 
Repetition 3 

Fold: 1 23 4 5 6 7 8 9 10 


像 先 前 提 到 那样 ， 第 一 个 参数 是 含有 在 实验 比较 中 所 应 用 数据 集 的 一 个 向 量 。 每 个 数据 集 
的 声明 形式 为 datatset( < formula > ,< data frame > ,< label > ), PE X experimentalComparison( ) 的 
第 二 个 参数 包含 要 研究 的 可 选 的 模型 方法 。 每 一 个 模型 方法 通过 晴 数 variant( ) 来 指定 ， 该 函数 
的 第 一 个 参数 是 用 户 定义 的 用 于 “学 习 + 测 试 + 评估 ”周期 的 函数 名 称 。 其 余 的 可 选 参数 用 来 
给 出 估计 方法 的 其 他 参数 的 可 选 值 。 函 数 variantes( ) 根据 所 有 参数 值 的 组 合生 成 一 组 可 选 模型 。 
83 | 在 上 面 例 子 的 代码 中 ， 模 型 “ev. Im” 采 用 了 默认 参数 值 ， 而 模型 “cv. pat” HBA se 则 给 出 
了 不 同 的 取 值 。 这 意味 着 实验 将 包含 回归 树 的 三 个 版 本 ， 这 点 可 以 在 上 面 的 函数 输出 中 得 到 确 
iA. PAL experimentalComparison( ) 的 第 三 个 参数 是 设 定 交叉 验证 实验 的 参数 ， 即 不 折 交 叉 验 证 
过 程 重复 的 次 数 (这 里 设 为 3) ,大 的 取 值 (10) 、 随 机 数 生 成 器 的 种 子 。 最 后 的 参数 (随机 数 种 
T) 设 定 可 以 保证 在 必要 的 情况 下 可 以 重 现 我 们 的 实验 (例如 更 换 了 训练 模型 系统 )。 
这 个 代码 调用 的 结果 是 一 个 复 洒 的 对 象 ， 它 包含 实验 比较 的 所 有 信息 。 在 本 书 的 R 添加 包 
中 提供 了 多 种 获取 这 些 信息 的 了 炒 数 。 例 如 ， 下 面 代码 提供 了 比较 结果 的 概要 : 


> summary (res) 
== Summary of a Cross Validation Experiment == 


3 x 10 - Fold Cross Validation run with seed = 1734 


* Datasets :: ai 
+ Learners :: cv.im.defaults, cv.rpart.vi, cv.rpart.v2, cv.rpart.v3 


* Summary of Experiment Results: 


-> Datataset: ai. 


*Learner: cv.lm.defaults 
nmse 
avg 0.7196105 
std 0.1833064 
min 0.4678248 
max 1.2218455 
invalid 0.0000000 


*Learner: cv.rpart.vi 
nmse 
avg 0.6440843 
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std 0. 2521952 
min 0.2146359 
max 1.1712674 
invalid 0.0000000 


*Learner: cv.rpart.v2 
nmse 
avg 0.6873747 
std 0.2669942 
min 0.2146359 
max 1.3356744 
invalid 0.0000000 


*Learner: cv.rpart.v3 
nmse 
avg 0.7167122 
std 0. 2579089 
min 0. 3476446 
max 1.3356744 
invalid 0.0000000 
从 结果 中 可 知 ， 其 中 的 一 个 回归 树 有 最 优 的 平均 NMSE 值 。 这 个 NMSE 值 是 否 明 显 优 于 其 他 模 
型 ， 目 前 还 不 明显 ， 本 节 的 后 面 将 回 到 这 个 问题 。 可 以 得 到 这 些 结果 的 可 视 化 图 形 〈 见 图 2-11)。 
代码 如 下 : 


> plot(res) 


cv.rpart.v3 


cv.rpart.v2 


cv.rpart.v1 


ev. Im, detaults 





02 0.4 0.6 08 1.0 1.2 


图 2-11 交互 验证 结果 的 可 视 化 


PRA experimentalComparison( ) 给 每 个 模型 一 个 标记 ， 如 果 你 想 知 道 任何 标记 模型 所 对 应 的 
参数 ， 代 码 如 下 : 


> getVariant("cv.rpart.vi", res) 
Learner:: "cv.rpart" 
Parameter values 

se = 0 


可 以 同时 对 所 有 7 个 预测 任务 进行 与 上 面相 似 的 比较 实验 。 执 行 以 下 代码 : 
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> DSs <- sapply(names(clean.algae) [12:18], 
function(x,names.attrs) { 
f «- as.formula(paste(x,"^ .")) 
dataset(f,clean.algae[,c(names.attrs,x)],x) 
} 


names (clean. algae) [1:11]) 
res.all <- experimentalComparison( 
DSs, 
c(variants('cv.1m'), 
variants ('cv.rpart',se=c(0,0.5,1)) 
Js 
cvSettings(5,10,1234)) 

为 了 节省 篇 幅 ， 我 们 省 略 了 以 上 代码 的 输出 。 上 面 代码 首先 创建 用 于 比较 7 个 预测 任务 的 数 
据 集 向 量 。 对 每 一 个 预测 问题 需要 构建 一 个 公式 ， 该 公式 由 一 个 字符 串 构 成 ， 它 是 数据 集中 相应 
的 需要 预测 的 目标 变量 和 符号 “ ~. ”连接 而 成 的 。 然 后 ， 该 字符 串通 过 肾 数 as. formula( ) 转换 
为 一 个 R 会 式 。 和 前 面 一 样 ， 创 建 用 于 函数 experimentalComparison( ) 的 数据 向 量 ， 不 同 的 是 要 
重复 5 次 10 折 交 叉 验证 以 提高 统计 结果 的 显著 性 。 根 据 计 算 机 的 运行 速度 ， 这 条 指令 可 能 要 运 
行 一 会 儿 。 

2-12 展现 了 在 交 义 验证 方法 下 ， 模 型 对 不 同 海 药 的 结果 。 绘 制图 2-12 的 代码 如 下 : 

> plot(res.all) 


从 图 2-12 中 可 知 ， 有 几 个 很 差 的 结果 ， 也 就 是 说 ， 几 个 NMSE 值 明 显 大 于 1。 测 试 结果 比 简 
单 地 采用 目标 变量 的 平均 值 这 一 基准 模型 还 要 差 ! 如 果 需 要 知道 每 个 问题 对 应 的 最 优 模型 ， 可 
LX hiv FA PRK bestScores( ) ， 代 码 如 下 : 


» bestScores(res.all) 


++eeevee GA +t A 


$a1 
system score 
nmse cv.rpart.vi 0.64231 


$a2 

system score 
nmse cv.rpart.v3 1 
$a3 


system score 
nmse cv.rpart.v2 1 


$a4 

system score 
nmse cv.rpart.v2 1 
$a5 


system score 
nmse cv.lm.defaults 0.9316803 


$a6 
system scora 
nmse cv.im.defaults 0.9359697 


$aT 
system acora 
nmse cv.rpart.v3 1.029505 
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图 2-12 所 有 海藻 的 交叉 验证 结果 的 可 视 化 


上 面 结果 说 明 ， 除 了 海藻 1 外 ， 其 他 海藻 的 预测 结果 都 不 好 。 图 2-12 给 出 的 结果 变 差 表 
明 ， 组 合 方法 也 许 是 一 种 好 的 预测 模型 。 组 合法 是 一 种 模型 构建 方法 ， 它 通过 产生 大 量 可 选 
模型 并 把 这 些 模 型 进行 组 合 ， 这 样 得 到 的 模型 可 以 克服 单个 模型 的 局 限 性 。 有 许多 方法 来 得 
到 组 合 模 型 ， 这 些 不 同 的 模型 不 仅 在 于 获取 模型 的 方法 不 同 ( 例如， 获取 模型 的 训练 集 数据 
的 不 同 、 变 量 不 同 、 建 模 方 法 不 同 ) ， 也 在 于 组 合 预测 的 不 同 。 随 机 森林 (Breiman, 2001) 
被 视 为 组 合 模型 有 竞争 性 的 例子 之 一 ， 它 由 大 量 的 树 模型 (回归 树 或 者 分 类 树 ) 构成 。 每 个 
树 是 完全 生长 (没有 事后 剪 校 ) ， 在 树 生 长 的 每 一 步骤 ， 最 好 的 结 点 分 割 方法 将 从 变量 集合 的 
一 个 随机 子 集 中 选取 。 回 归 任 务 的 预测 采用 组 合 中 预测 结果 的 平均 值 。R 的 添加 包 
randomForest (Liaw and Wiener, 2002) EP" randomForest( ) 实现 回归 树 的 思想 。 以 下 代码 
是 重复 先前 交叉 验证 ,这 次 是 包含 三 个 版 本 的 随机 森林 模型 ， 在 组 合 中 每 个 模型 有 不 同 数目 
的 树 ， 这 里 又 一 次 把 输出 忽略 。 

> library(randomForest) 

> cv.rf <- function(form,train,test,...) { 

+ m <- randomForest(form,train,...) 

+ p <- predict(m,test) 

+ mse <- mean((p-resp(form,test))^2) 

+  c(nmse«mse/mean( (mean (resp (form,train))-resp(form,test))^2)) 


*J 

> res.all <- experimentalComparison( 

十 DSs, 

+ c(variants(cv.lm'), 

+ | variants ('cv.rpart',se=c(0,0.5,1)), 

* variants('cv.rf',ntreesc(200,500,700)) 
4 2, 

+ cvSettings(5,10,1234)) 


应 用 函数 bestScores( ) ， 能 证 实 组 合 方法 的 优势 : 
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> bestScores(res.all) 


$a1 
system score 
nmse cv.rf.v3 0.5447361 


$a2 
system Bcore 
nmse cv.rf.v3 0.7777851 


$a3 
system score 
nmse cv.rf.v2 0.9946093 


$a4 
system score 
nmse cv.rf.v3 0.9591182 


$a5 
system score 
nmse cv.rf.vi 0.7907947 


$a6 
system score 
nmse cv.rf.v3 0.9126477 


$a7 
system score 
nmse cv.rpart.v3 1.029505 


事实 上 ， 除 了 海 莹 7 以 外 的 所 有 问题 ， 最 好 的 结果 是 由 随机 森林 的 某 些 变 体 给 出 的 。 而 且 ， 
结果 不 是 总 是 很 好 ， 尤 其 是 对 于 海藻 7。 孙 数 bestScores( ) 并 没有 告诉 我 们 这 些 最 佳 模 型 和 剩余 
其 他 模型 之 间 的 区 别 是 否 显著 。 也 就 是 说 ， 采 用 另外 的 随机 数据 我 们 能 得 到 相似 结果 的 可 能 性 
是 多 少 ? 本 书 提供 的 R 添加 包 中 的 函数 compAnalysis( ) 可 以 提供 这 一 信息 。 它 对 一 个 模型 和 其 
他 另 一 个 模型 进行 成 对 的 Wilcoxon 检验 。 下 面 举例 说 明 该 函数 的 某 些 应 用 。 

对 于 海 蒙 1、2、4 和 6， 模 型 “ev.I ”是 最 好 的 。 下 面 的 代码 将 给 出 这 一 论断 的 统计 显 
著 性 : 


> compAnalysis(res.all,against='cv.rf.v3', 
datasetssc('ai','a2','a4' ,'a6')) 


== Statistical Significance Analysis of Comparison Results == 


Baseline Learner:: cv.rf.v3  (Learn.1) 
** Evaluation Metric:: nmse 
- Dataset: a1 


Learn.1  Learn.2 sig.2  Learn.3 sig.3  Learn.4 sig.4 


AVG 0.5447361 0.7077282 ++ 0.6423100 * 0.6569726 ++ 
STD 0.1736676 0.1639373 0.2399321 0.2397636 
Learn.5 sig.5 Learn.6 sig.6  Learn.7 sig.7 


AVG 0.6875212 ++ 0.5490511 0.5454724 
STD 0.2348946 0.1746944 0.1766636 
- Dataset: a2 


Learn.1  Learn.2 sig.2  Learn.3 sig.3 Learn.4 sig.4 


AVG 0.7777851 1.0449317 ++ 1.0426327 ++ 1.01626123 


STD 0.1443868 0.6276144 0.2005522 0.07435826 
Learn.6 sig.5  Learn.6 sig.6  #Learn.7 sig.7 
AVG 1.000000e+00 ++ 0.7829394 0. 7797307 
STD 2.389599e-16 0.1433550 0.1476815 
- Dataset: a4 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 Learn.4 sig.4 
AVG 0.9591182 2.111976 1.0073953 + 1.000000e+00 
STD 0.3566023 3.118196 0.1065607 2.714424e-16 
Learn.5 sig.5 Learn.6 sig.6 Learn.7 sig.7 
AVG 1.000000e*00 * 0.9833399 0.9765730 
SID 2.774424e-16 0.3824403 0.3804456 
- Dataset: a6 
Learn.1 Learn.2 sig.2  Learn.3 sig.3 Learn.4 sig.4 
AVG 0.9126477 0.9359697 ++ 1.0191041 1.000000e*00 
STD 0.3466902 0.6045963 0.1991436 2.4b51947e-16 
Learn.b sig.b $Learn.6 sig.6 Learn. sig.7 
AVG 1.000000e*00 0.9253011 0.9200022 
STD 2.451947e-16 0.3615926 0.3509093 
Legends: 


Learners -> Learn.1 = cv.rf.v3 ; Learn.2 = cv.lm.defaults ; 
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Learn.3 = cv.rpart.vi ; Learn.4 = cv.rpart.v2 ; Learn.5 = cv.rpart.v3 ; 


Learn.6 = cv.rf.vl ; Learn.7 = cv.rf.v2 ; 
Signif. Codes -> 0 '++' or '--' 0.001 '+' or '-' 0.05 '' 1 


上 面 结 果 中 的 “sig. X” 列 提供 了 我 们 需要 的 信息 。 如 果 这 一 列 没有 任何 标识 符号 则 意味 着 
相应 的 模型 和 “cv. rf. v3” 模 型 之 间 有 显著 差异 的 可 能 性 低 于 95% 〈 检 查 图 例 以 理解 符号 的 含 
义 )。 加 号 (“+”) 意味 着 相应 模型 的 平均 性 能 估计 指标 显著 高 于 模型 “cv. d. v3”。 由 于 好 的 
模型 对 应 较 低 的 NMSE 值 ， 所 以 该 模型 的 性 能 比 模型 “ev. v3" 25, WE (“7 的 含义 


相反 。 


从 输出 结果 可 以 确认 ， 随 机 森林 不 同 版 本 之 则 的 差异 在 统计 上 通 稍 不 显 着 。 与 其 他 黎 型 相 


比 ， 在 大 部 分 情况 下 ， 随 机 森林 模型 有 显著 的 优势 。 


可 以 对 在 其 他 海藻 上 有 最 优 性 能 的 模型 进行 如 上 类 似 的 分 析 ， 只 要 在 函数 compAnalysis ( ) 


的 参数 against 和 datasets 上 取 不 同 的 值 即 可 。 
模型 选择 和 模型 评价 的 参考 文献 


在 不 同 的 模型 间 进 行 比较 和 选择 一 直 是 许多 研究 的 主题 。 其 中 ,我 们 建议 参考 Dietterich 


(1998). Provost ¥ (1998). Nemenyi (1969) 和 Demsar (2006) 的 书 。 


关于 组 侣 学 习 方 法 ， 也 有 大 量 的 文献 。 我 们 重点 推荐 (Breiman, 1996) 关于 bagging 的 书 ， 
(Freund and Shapire, 1996; Shapire, 1990) 关于 boosting 的 书 。 Dietterich (2000) 是 一 篇 很 好 的 


关于 这 些 主题 的 一 个 综述 。 
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2.8 预测 7 类 海藻 的 频率 


本 节 将 学 习 如 何 给 出 7 2818 140 个 测试 样本 的 频率 预测 值 。2.7 节 描 述 了 如 何 选 择 预 测 值 
的 最 佳 模 型 ， 给 出 了 通过 交叉 验证 实验 过 程 来 得 到 7 个 预测 任务 的 预测 模型 的 无 偏 NMSE 估计 
方法 。 

本 章 数据 挖掘 案例 的 主要 目的 是 得 到 140 个 水 样 的 7 个 海藻 的 频率 值 预测 。 每 一 个 预测 任务 
都 采用 交叉 验证 过 程 给 出 的 最 佳 模型 进行 预测 ， 这 个 最 佳 模 型 将 是 2.7 节 中 调用 盟 煞 bestScores ( ) 
所 显示 的 模型 之 一 ， 也 就 是 从 模型 “cv rf v3”, “ev rf vZ”, "ev. rf. v1". gk "cv. rpart. v3". rp 
择 最 佳 的 。 

下 面 应 用 所 有 可 得 的 训练 数据 来 构建 模型 ， 并 将 得 到 的 模型 应 用 到 测试 数据 集 。 注 意 ， 为 了 
简单 ， 在 构建 回归 树 时 ,采用 上 近邻 填补 法 填充 数据 框 clean. algae 的 NA 值 。 这 样 就 避免 回归 树 
采用 它 自身 的 缺失 值 处 理 方法 。 随 机 森林 本 身 没 有 缺失 值 处 理 方法 ， 因 此 把 数据 框 clean. algae 作 
为 它 的 训练 集 数据 。 下 面 的 代码 可 以 同时 获得 所 有 7 个 模型 ， 


> bestModelsNames «- sapply(bestScores(res.all), 

* function(x) x['nmse','system']) 
> learners <- c(rf-'randomForest',rpart-'rpartXse') 

> funcs <- learners[sapply(strsplit (bestModelsNames,'\\.'), 


+ function(x) x[2])] 
> parSetts «- lapply(bestModelsNames, 
+ function(x) getVariant (x,res.all)@pars) 


> bestModels «- list() 
> for(a in 1:7) { 


+ form <- as.formula(paste(names(clean.algae)[11*a],'^ .')) 

+ — bestModels[[a]] <- do.call(funcs[a], 

4 c(list(form,clean.algae[,c(i:11,11*a)]),parSetts[[a]])) 
+} 


上 面 的 代码 中 得 到 了 一 个 向 量 ， 其 元 素 为 每 一 个 预测 任务 的 最 优 模 型 。 可 以 得 到 保存 最 优 
模型 向 量 funcs 中 的 相应 最 优 模型 的 R 函数 名 。 可 以 通过 函数 strsplit( ) 来 提取 模型 的 名 称 ， 这 
一 步骤 需要 用 到 复杂 的 肾 数 复合 。 为 了 理解 整个 过 程 ， 可 以 把 以 上 获取 函数 名 的 这 个 函数 复合 
分 开 来 执行 。 每 一 个 最 优 模型 的 参数 赋 给 列表 parSetis, PAR getVariant( ) 给 出 相应 给 定名 称 的 
模型 ， 这 个 函数 的 返回 (对象) 值 是 模型 类 对 象 。 这 些 对 象 有 不 同 的 “属性 ”， 其 中 一 个 是 名 为 
pars 的 属性 ， 它 包含 模型 参数 列表 。 对 象 的 属性 可 以 用 R 的 操作 符 “@ ”来 访问 。 最 后 ， 得 到 最 
优 模型 并 把 它们 赋 给 列表 bestModels。 对 于 每 一 个 海藻 ， 如 前 面 一 样 构建 公式 ， 然 后 通过 函数 
do. call( ) 调用 适当 设置 的 相应 的 RRR. PRC do call() 可 以 调用 任何 函数 ， 它 的 第 一 个 参数 
是 作为 字符 串 的 图 数 名 ， 第 二 个 参数 是 包含 调用 困 数 所 需 参 数 的 一 个 列表 。 执 行 do. eall( ) 函数 
后 ， 得 到 预测 相应 7 个 海藻 类 频率 的 最 优 模型 ， 然 后 就 可 以 应 用 这 些 模 型 对 测试 集 进行 预测 9。 

本 书 提供 的 R 添加 包 的 数据 框 test. algae 含有 140 个 测试 水 样 ， 这 个 测试 集中 也 含有 缺失 值 。 
因此 ， 第 一 步 是 用 前 面 的 方法 来 填补 缺失 值 。 首 先 尝 试 对 测试 集 数 据 框 应 用 函数 knnImputation( ) 
来 填补 缺失 值 ， 该 方法 可 行 ， 但 问题 是 这 里 有 些 违背 预测 模型 的 黄金 法 则 “不 要 应 用 测试 集中 
的 任何 信息 来 建立 预测 模型 "。 因 此 ， 如 果 直 接 在 测试 集 上 应 用 knnImputation( ) et, CN 
用 测试 集 数 据 寻 找 10 个 最 近邻 值 ， 并 以 此 来 填补 缺失 值 。 应 用 目标 变量 信息 来 建立 模型 是 绝对 
错误 的 ， 尽 管 我 们 没有 犯 该 错误 ， 但 是 可 以 避免 应 用 测试 集 数据 来 填补 缺失 值 。 方 法 是 应 用 训练 
集 数 据 中 的 10 个 最 近邻 元 素来 填补 测试 集中 的 缺失 值 。 这 样 就 更 加 贴 合 实际 ， 也 更 正确 。 实 际 


O Tir: 如 果 打 印 对 象 bestModels， 输 出 结果 可 能 充满 整个 屏幕 。 
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上 ,我 们 可 能 是 依次 获取 水 样 ， 一 次 得 到 一 个 水 样 。 肾 数 knnImputation( ) 有 一 个 特殊 的 参数 ， 
可 以 用 训练 集 数 据 来 填补 测试 集中 的 缺失 值 。 用 法 如 下 : 


> clean.test.algae <- knnImputation(test.algae, k = 10, distData = algael, | 91 
+ 1:11]) iz 

! | | 92 
可 以 设置 函数 knnImputation( ) 的 参数 distData 来 指定 特定 的 数据 集 ， 从 该 数据 集中 找到 测 


试 集 数据 框 test. algae 中 有 缺失 数据 案例 的 10 个 最 近邻 值 。 注 意 ， 由 于 测试 数据 集 没 有 目标 变量 
的 信息 ， 因 此 在 数据 集 algae 中 忽略 了 目标 变量 。 

下 面 就 可 以 获取 整个 测试 数据 集 的 预测 值 矩 阵 ， 代 码 如 下 ; 

> preds <- matrix(ncol=7,nrow=140) 

> for(i in 1:nrow(clean.test.algae)) 

*  preds[i,] «- sapply(1:7, 

+ function(x) 

+ predict (bestModeis[[x]],clean.test.algae[i,]) 

F 

在 上 面 的 简单 代码 中 ， 需 要 的 7x140 个 预测 值 存储 在 矩阵 preds 中 。 在 这 个 预测 问题 中 ， 由 
于 测试 集 目标 变量 值 实际 上 是 已 知 的 ， 所 以 可 以 把 预测 值 和 真实 值 进 行 比较 ， 据 此 可 以 评价 预 
测 结 果 的 质量 。 测 试 集 数据 的 真实 值 在 本 书 R 添加 包 的 数据 框 algae. sols 中 。 下 面 的 代码 计算 模 
型 的 NMSE 值 : 


> avg.preds <- apply(algae[,12:18],2,mean) 
> apply( ((algae.sols-preds)"^2), 2,mean) / 
* apply( (scale(algae.sols,avg.preds,F)^2),2,mean) 


ai a2 aa a4 ab a6 aT 
0.4650380 0.8743948 0.7798143 0.7329075 0.7308526 0.8281238 1.0000000 


首先 得 到 计算 NMSE 值 时 需要 用 到 的 基准 模型 的 预测 值 ， 这 里 是 目标 变量 平均 值 的 预测 。 基 
准 预 测 由 一 行 代码 完成 ， 它 初 看 起 来 有 点 复杂 ， 一 旦 你 理解 了 该 代码 ， 你 将 惊异 它 的 简洁 性 。 郴 
数 scale( ) 用 来 标准 化 数据 集 ， 如 果 第 三 个 参数 不 是 FALSE， 它 从 第 一 个 参数 中 减 去 第 二 个 参 
数 ， 然 后 除 以 第 三 个 参数 ， 如 上 面 的 代码 所 示 。 在 上 面 的 例子 中 ， 我们 用 该 阴 数 从 和 矩阵 数据 的 每 
一 行 中 减 去 一 个 向 量 ( 即 所 有 7 个 藻类 的 平均 目标 变量 值 )。 
得 到 的 结果 和 前 面 交叉 验证 的 估计 结果 相 一 致 。 它 也 再 次 确认 很 难得 到 海藻 7 的 较 好 预测 ， 
而 其 他 海藻 的 估计 结果 则 相对 较 好 ， 海 药 1 的 估计 结果 最 佳 。 
总 之 ， 通 过 适当 的 模型 选择 过 程 ， 就 可 以 得 到 这 些 预 测 问题 的 恰当 的 分 数 。 


2.9 小 结 


作为 本 书 的 第 一 个 学 习 案 例 ， 本 章 主 要 目的 是 让 读者 熟悉 R 软件 。 据 此 ， 从 数据 挖掘 的 标 
淮 而 言 ， 这 里 选 了 一 个 较 小 的 问题 。 本 章 描 述 了 如 何在 R 中 进行 一 些 最 基本 的 数据 分 析 任 务 。 

如 果 你 要 了 解 基 于 本 章 数据 的 国际 数据 分 析 比 赛 的 内 容 ， 可 以 浏览 比赛 的 网 站 ， 或 者 阅读 
一 些 有 关 获 疾 管 案 的 文章 (Bontempi et al. , 1999; Chan, 1999; Devogelaere et al. , 1999; Torgo, 
1999b) ， 然 后 比较 文章 作者 所 用 的 数据 分 析 策 略 。 

就 数据 挖掘 而 言 ， 本 案例 描述 了 下 列 内 容 : 

e 数据 可 视 化 

描述 性 统计 分 析 


© http: //www. erudit. de/erudit/competitions/ic-qq/. 
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。 处理 缺失 值 的 策略 
e 回归 分 析 
© 回归 分 析 的 评价 指标 
e 多 元 线性 回归 
e 回归 树 
e 通过 正 折 交互 验证 来 进行 模型 选择 和 比较 
e 模型 组 合 和 随机 森林 
经 过 上 面 的 学 习 ， 希 望 读 者 熟悉 交互 式 应 用 R 的 方法 ， 熟 悉 R 的 一 些 特性 。 也 就 是 说 ， 应 
该 学 习 下 列 R 的 技能 : 
e 读 人 文本 数据 文件 
© 如 何 得 到 数据 集 的 描述 性 统计 量 
e 基本 的 数据 可 视 化 方法 
© 如 何 处 理 有 缺失 值 的 数据 
e 如 何 构建 回归 模型 
e 如 何 应 用 模型 得 到 测试 集 的 预测 值 
本 书 接 下 来 的 案例 研究 将 给 出 上 面 更 多 的 细节 和 数据 控 握 技巧 。 
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应 用 到 具体 商业 问题 中 所 面临 的 困难 。 这 里 以 建立 自动 股票 交易 系统 这 一 具体 问题 为 例 。 基 于 
股票 的 每 日 交易 数据 ， 首 先 建立 预测 模型 ， 然 后 据 此 分 析 如 何 建立 股票 交易 系统 。 我 们 的 目标 是 
预测 S&P 500 (标准 普尔 500) 股票 指数 的 未 来 收益 ， 为 此 首先 建立 了 几 个 预测 模型 ， 然 后 这 些 
模型 结合 给 定 的 交易 策略 产生 市 场 上 的 交易 决策 ( 即 买卖 信号 )。 本 章 主要 讲解 几 个 新 的 数据 挖 
PME, EME: 1) 如 何 使 用 R 来 分 析 存 储 在 数据 库 中 的 数据 ; 2) 如 何 对 具有 时 间 上 顺序 的 观 
测 值 (即时 间 序 列 ) 进行 预测 ; 3) 把 模型 预测 结果 转化 为 现实 应 用 中 的 决策 和 行动 。 


3.1 问题 描述 与 目标 


对 数据 挖掘 而 言 股票 市 场 交 易 是 个 具有 巨大 潜力 的 应 用 领域 。 事 实 上 ， 由 于 大 量 历 史 数 据 
的 存在 ， 人 工 对 这 些 数据 进行 检测 是 很 困难 的 ， 而 数据 挖掘 技术 对 大 数据 有 先天 的 优势 。 另 一 方 
面 ， 有 学 者 声称 ， 市场 在 价格 调整 上 通 应 之 快 ， 以 至 于 根本 没有 空间 可 以 得 到 稳定 的 收益 。 这 就 
是 有 名 的 有 效 市 场 假设 。 这 个 理论 先后 被 一 些 更 宽松 的 版 本 所 取代 ， 即 由 于 得 暂 的 市 场 无 效 ， 市 
场 还 是 有 一 些 交 易 机 会 空间 的 。 

股票 交易 的 总 体 目标 是 维持 一 个 基于 买卖 订单 的 股票 组 合 。 长 期 目标 就 是 从 这 些 股 票 交易 
中 获取 尽 可 能 多 的 利润 。 本 章 对 股票 组 合 简化 ， 只 “交易 ”一 只 单一 的 证 券 ， 这 里 采用 股票 市 
场 指数 一 一 标准 普尔 指数 。 对 于 给 定 的 证 券 和 初始 资金 ， 我 们 将 尝试 通过 交易 行为 ( 买 人 、 卖 
出 、 持 有 ) ， 在 未 来 一 段 测试 期 使 利润 最 大 化 。 应 用 数据 挖 狗 技术 得 到 结果 给 出 信号 ， 然 后 据 此 
作为 决策 的 基础 来 制定 交易 策略 。 在 该 过 程 中 ， 我 们 应 用 标准 普尔 500 指数 的 历史 数据 来 预测 未 
来 的 指数 变化 。 因 此 我 们 的 预测 模型 将 包含 进 一 个 交易 系统 中 ， 该 交易 系统 应 用 模型 的 预测 结 
果 来 生成 决策 。 总 体 的 评 信 标准 就 是 该 交易 系统 的 性 能 ， 即 该 交易 系统 的 交易 所 产生 的 利润 或 
者 损失 ， 以 及 对 投资 者 有 意义 的 一 些 其 他 统计 指标 。 因 此 ， 我 们 的 主要 评价 指标 是 应 用 数据 挖掘 
过 程 发 现 的 知识 来 进行 交易 所 产生 的 结果 ， 而 不 是 在 该 过 程 中 所 开发 的 模型 的 预测 准确 性 。 


3.2 可 用 的 数据 


在 我 们 的 案例 中 将 关注 交易 标准 普尔 500 指数 。 这 个 指数 的 日 常数 据 在 很 多 地 方 都 可 以 获 
得 ， 比 如 Yahoo 财经 网 站 ”。 

我 们 要 用 到 的 数据 可 以 在 本 书 的 添加 包 中 得 到 。 同 时 ， 为 了 说 明 R 的 功能 ， 我 们 会 给 出 获 
取 该 数据 的 其 他 方式 。 另 外 ， 这 些 获取 数据 的 方式 可 以 让 你 把 本 章 学 到 的 知识 应 用 到 最 近 的 数 
据 中 ， 而 不 是 仅仅 限于 截止 本 书写 作 时 打包 的 数据 。 

为 了 通过 本 书 的 R 程序 包 得 到 这 些 数据 ， 可 以 在 R 中 输入 : 
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> library (DMwR) 

> data(GSPC) 

只 有 先前 没有 在 当前 的 R 会 话 中 执行 第 一 条 指令 的 情况 下 ， 第 一 条 指令 才 需 要 输入 。 第 二 
条 指令 载 人 一 个 GSPC 对 象 ， 该 对 象 是 xis 类 的 。 我 们 将 在 3. 2. 1 节 讲 解 xts 类 对 象 。 现 在 ， 只 
要 把 它 作为 一 个 抢 阵 或 者 数据 框 来 操作 即 可 (比如 head( GSPC) ) 。 

在 本 书 的 网 站 中 ， 可 以 找到 两 种 格式 的 数据 。 第 一 种 是 逗号 分 隔 值 (Comma Separated 
Value, CSV) 文件 ， 它 可 以 被 读 到 R 中 (如 第 2 章 所 述 ) 。 另 一 种 格式 是 MySQL 数据 库 导出 文 
件 ， 可 以 用 它 在 MySQL 中 生成 一 个 存放 S&P 500 的 数据 库 。 我 们 将 说 明 如 何在 R 中 导入 这 两 种 
格式 的 数据 。 具 体 采 用 哪 种 格式 的 数据 ， 完 全 取决 于 你 自己 ,或 者 你 也 可 以 采用 最 简单 的 方 
式 一 一 直接 应 用 本 书 提 供 的 R 添加 包 中 的 数据 。 本 章 的 其 他 部 分 (守信 数据 之 后 的 分 析 部 分 ) 

与 你 所 应 用 的 存储 数据 的 方式 无 天 。 

为 了 完整 ， 我 们 也 给 出 了 另 一 种 将 数据 读 到 R 中 的 方法 ， 即 直接 从 数据 网 站 上 下 载 需 要 的 数 
据 。 注 意 ， 如 果 选 择 这 种 方式 ， 那 么 你 所 应 用 的 数据 集会 比 本 章 中 的 数据 集 大 很 多 。 

不 管 采 用 哪 种 方式 获取 数据 ， 股 票 的 日 交易 数据 应 该 包括 下 面 几 个 属性 : 

e 交易 日 期 

e 当日 开盘 价 

e 当日 最 高 价 

e 当日 最 低 价 

e 当日 收盘 价 

e 当日 成 交 量 

e 当日 调整 后 的 收盘 价 
3.2.1 在 R 中 处 理 与 时 间 有 关 的 数据 

这 个 案例 中 用 到 的 数据 和 时 间 有 关 ， 即 每 个 观测 值 有 一 个 时 间 标 签 。 该 类 数据 常 称 为 时 间 
序列 数据 。 由 于 每 个 观测 值 都 有 一 个 给 定 的 时 间 标 签 ， 所 以 时 间 序 列 数据 的 重要 特征 是 观测 值 
之 间 的 先后 顺序 很 重要 。 一 般 来 说 ， 时 间 序 列 就 是 随机 变量 了 的 一 组 有 序 的 观测 值 ， 即 

Yisfas Ya oua SYL (3-1) 
这 里 y, 是 时 间 序 列 变 量 了 在 时 间 c B5 XU (E s 

时 间 序 列 分 析 的 主要 目的 根据 变量 过 去 的 观测 值 yy y. ccs Noa, Y, 来 构造 一 个 模型 ， 据 
此 可 以 对 时 间 序 列 未 来 的 取 值 进行 预测 ， 即 预测 yu, s, Yno 

在 本 章 的 股票 数据 案例 中 ， 由 于 我 们 在 同一 个 时 间 点 上 观测 了 多 个 变量 ， 它 们 各 自 是 Open、 
High, Low, Close, Volume 和 AdjClose ”， 所 以 该 类 型 的 时 间 序 列 常 称 为 多 元 时 间 序 列 。 

R 有 多 个 添加 包 用 于 对 这 类 数据 进行 分 析 ， 这 些 包 提供 了 特殊 的 类 来 存储 不 同类 型 的 时 间 序 
列 数据 。 而 且 ，R 有 许多 因数 用 于 这 些 不 同类 型 的 时 间 序 列 数 据 ， 例 如 特殊 的 绘图 函数 等 。 

对 于 处 理 时 间 序 列 数据 ，R 中 最 灵活 的 添加 包 有 zoo (Zeileis and Grothendieck, 2005) 和 xts 
(Ryan and Ulrich, 2010) 。 这 两 个 包 提 供 类 似 的 功能 ， 但 是 xts 包 提 供 了 用 ISO 8601 时 间 字 符 串 
来 获取 数据 子 集 等 更 多 的 方法 。 在 技术 上 ，xts 类 扩充 了 zoo 类 ， 每 个 xts 类 都 同时 是 一 个 zoo 类 ， 


在 我 们 下 载 行情 数据 的 雅虎 财经 网 站 ， 标 准 普尔 500 指数 的 股票 编号 为 GSPC。 

http; //www. liaad. up. pt/ ~ ltorgn/DataMiningWithR. 

该 价格 是 调整 了 股票 分 割 、 分 红 、 配 股 等 之 后 的 价格 。 

事实 上 ， 更 严格 地 说 ， 这 里 应 该 只 有 两 个 时 间 序 列 【价格 Price 和 成 交 量 Volume) ， 因 为 所 有 的 报价 是 同一 个 变 
量 (价格 Price) 在 一 天 中 不 同时 间 的 取样 。 


& (» (» od 
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因此 zoo 类 对 象 的 所 有 方法 都 可 以 应 用 到 xts 类 对 象 。 本 章 的 分 析 主 要 是 应 用 xts 对 象 。 注 意 ，zoo 
和 xts 都 是 R 的 附加 包 ， 它 们 在 R 的 基本 安装 中 是 没有 的 ， 在 应 用 之 前 需要 先 下 载 并 安装 它们 
(参见 1.2.1 节 )。 

下 面 举例 说 明 如 何 创建 和 应 用 xts 对 象 。 


> library(xts) 
> x1 <- xts(rnorm(100), seq(as.POSIXct ("2000-01-01"), len = 100, 
+ by = "day")) 
> x1[1:5] 
[,1] 
2000-01-01 0.82029230 
2000-01-02  0.99165376 
2000-01-03 0.05829894 
2000-01-04 -0.01566194 
2000-01-05 2.02990349 
> x2 <- xts(rnorm(100), seq(as.POSIXct ("2000-01-01 13:00"), 
+ len = 100, by = "min")) 
> x2[1:4] 


[,1] 
2000-01-01 13:00:00 1.5638390 
2000-01-01 13:01:00 0.7876171 
2000-01-01 13:02:00 1.0860185 
2000-01-01 13:03:00 1.2332406 


» x3 «- xts(rnorm(3), as.Date(c("2005-01-01", "2005-01-10", 
* ^2005-01-12"))) 
> x3 
(,1] 
2005-01-01 -0.6733936 


2005-01-10 -0.7392344 
2005-01-12 -1.2165554 


函数 xts( ) 的 第 一 个 参数 接收 时 间 序 列 数据 。 该 数据 可 以 是 一 个 向 量 , 或 者 如 果 时 间 序 列 是 
多 元 时 间 序 列 ， 该 参数 也 可 以 是 一 个 矩阵 了 。 在 第 二 种 情况 下 ， 和 矩阵 的 每 一 列 解 释 为 一 个 变量 在 
不 同时 间 点 〈 即 每 一 行 ) 上 的 抽样 值 。 第 二 个 参数 是 时 间 标 签 ， 它 可 以 是 R 时 间 类 的 任何 一 种 
形式 。 在 上 面 的 示例 中 ， 用 到 了 R 表示 时 间 信 息 的 两 个 最 常用 的 时 间 类 : POSIXet 类 (或 POSIXlt 
Æ) 和 Date 类 。 有 许多 和 这 些 类 相关 联 的 函数 可 以 用 来 操作 这 些 类 中 的 时 间 信 息 ， 详 细 参 见 R 的 
帮助 文档 。 例 如 ， 在 第 1 章 中 我 们 用 seq( ) 函数 来 生成 一 系列 数 ， 这 里 我 们 用 该 函数 生成 一 个 基 
于 时 间 的 序列 。 

在 上 面 的 例子 中 ， 如 果 去 掉 时 间 标 签 ， 那 么 这 些 时 间 序 列 对 象 可 以 像 “ 正 常 ” 对 象 一 样 进 
行 索 引 (标准 的 向 量子 集 )。 我 们 经 常 需要 基于 与 时 间 有 关 的 条 件 来 获取 这 些 序列 的 子 集 。 采 用 
xts 对 象 可 以 有 多 种 方式 实现 它 ， 举 例如 下 : 

> xi[as.POSIXct ("2000-01-04")] 


[,1] 
2000-01-04 -0.01566194 


O 这 意味 着 不 能 在 xts 中 有 像 数据 框 那 样 的 混合 类 型 数据 。 
已 ”事实 上 ， 这 里 是 应 用 于 类 POSIXt 的 泛 型 函数 seq( ) 的 一 个 特殊 方法 。 可 以 输入 “?seq. POSIXt” 获 得 该 函数 的 更 
多 信息 。 
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> x1["2000-01-05"] 


[,1] 
2000-01-05 2.029903 


» x1["20000105"] 


L, 1] 
2000-01-05 2.029903 


> x1["2000-04"] 


[,1] 
2000-04-01 01:00:00 0.2379293 
2000-04-02 01:00:00 -0.1005608 
2000-04-03 01:00:00 1.2982820 


2000-04-04 01:00:00 -0.1454789 
2000-04-05 01:00:00 1.0436033 
2000-04-06 01:00:00 -0.3782062 
2000-04-07 01:00:00 -1.4501869 
2000-04-08 01:00:00 -1.4123785 
2000-04-09 01:00:00 0.7864352 


> x1["2000-03-27/"] 


[,1] 
2000-03-27 01:00:00 0.10430346 
2000-03-28 01:00:00 -0.53476341 
2000-03-29 01:00:00 0.96020129 
2000-03-30 01:00:00 0.01450541 
2000-03-31 01:00:00 -0.29507179 
2000-04-01 01:00:00 0.23792935 
2000-04-02 01:00:00 -0.10056077 
2000-04-03 01:00:00 1.29828201 
2000-04-04 01:00:00 -0.14547894 
2000-04-05 01:00:00 1.04360327 
2000-04-06 01:00:00 -0.37820617 
2000-04-07 01:00:00 -1.45018695 
2000-04-08 01:00:00 -1.41237847 
2000-04-09 01:00:00 . 0.78643516 


> xi1["2000-02-26/2000-03-03"] 


[,1] 
2000-02-26  1.77472184 
2000-02-27 -0.49498043 
2000-02-28  0.78994304 
2000-02-29  0.21743473 
2000-03-01  0.54130752 
2000-03-02 -0.02972957 
2000-03-03 0.49330270 


» x1["/20000103"] 


[,1] 
2000-01-01 0.82029230 
2000-01-02 0.99165376 
2000-01-03 0.05829894 
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第 一 个 命令 中 的 参数 是 一 个 具体 的 时 间 什 对象， 它 和 创建 xl 对 和 象 的 清 数 的 第 二 个 参数 的 对 象 
的 类 是 一 样 的 。 其 他 的 例子 展示 了 ts 包 中 强大 的 子 集 索 引 功 能 ， 它 是 xts 包 优 于 R 中 的 其 他 时 间 序 
列 包 的 地 方 之 一 。 这 里 的 子 集 察 引 把 时 间 标 签 作为 字符 串 ， 其 一 般 格 式 为 : CCYY -MM -DD HH; 
MM; SS[.s]。 上 述 格式 的 不 同 段 之 间 的 分 隔 符 可 以 省 略 ， 该 格式 的 某 些 部 分 可 以 忽略 以 用 于 表示 
一 个 时 间 标 签 集合 。 另 外 ,“/“” 符 叶 可 以 用 于 上 述 格式 的 开始 或 结尾 ， 用 以 表示 某 个 时 间 段 。 
“/” 符 号 在 结尾 表示 以 该 时 间 开 始 的 时 间 段 ,“/” 符 号 在 开始 表示 以 该 时 间 结 束 的 时 间 段 。 


多 元 时 间 序 列 可 以 用 类 似 的 方式 建立 ， 例 如 : 


> mts.vals, <- matrix(round(rnorm(25),2),5,5) 
> colnames(mts.vals) <- paste('ts',1:5,sep="') 
> mts <- xts(mts.vals,as.POSIXct (c('2003-01-01','2003-01-04' , 
4 '2003-01-05' ,'2003-01-06','2003-02-16'))) 
> mts 
tsi ts2 ts3 ts tab 
2003-01-01 0.96 -0.16 -1.03 0.17 0.62 
2003-01-04 0.10 1.64 -0.83 -0.55 0.49 
2003-01-05 0.38 0.03 -0.09 -0.64 1.37 
2003-01-06 0.73 0.98 -0.66 0.09 -0.89 
2003-02-16 2.68 0.10 1.44 1.37 -1.37 


> mts["2003-01",c("ts2","ts5")] 


tsb 
0.62 


ta2 
2003-01-01 -0.16 
2003-01-04 1.64 0.49 
2003-01-05 0.03 1.37 
2003-01-06 0.98 -0.89 


PRX index() 和 time() 可 以 用 来 “获取 ”任意 xts 对 象 的 时 间 标 签 信 息 coredata( ) 函数 


用 来 获取 时 间 序 列 的 观测 值 。 例 如 ， 


> index(mts) 


[1] "2003-01-01 WET" "2003-01-04 WET" "2003-01-05 WET" "2003-01-06 WET" 
[5] "2003-02-16 WET" 


> coredata(mts) 


tsi ts2 ts3 ts4 tsb 
[1,] 0.96 -0.16 -1.03 0.17 0.62 
[2,] 0.10 1.64 -0.83 -0.55 0.49 
[3,] 0.38 0.03 -0.09 -0.64 1.37 
[4,] 0.73 0.98 -0.66 0.09 -0.89 


[5,] 2.68 0.10 1.44 1.37 -1.37 
总 之 ，xts 对 象 可 以 用 于 存储 带 有 不 规则 时 间 标 签 的 多 元 时 间 序 列 ， 它 足以 用 来 存储 股票 交 


易 数 据 ， 并 能 提供 强大 的 子 集 索引 功能 。 
3.2.2 从 CSYV 文件 读 取 数 据 


如 前 文 所 述 ， 本 书 网 站 有 本 草案 例 的 各 种 数据 格式 。 如 果 你 决定 用 CSV 数据 文件 ， 需 要 先 
下 载 该 数据 文件 ， 它 的 前 面 几 行为 : 


"Inder" 
1970-01-02 92.06 
1970-01-05 93 

1970-01-06 93.46 
1970-01-07 92.82 


"Üpen" "High" 


93.54 
94.25 
93.81 
93.38 


"Low" "Close" 
91.79 93 
92.53 93.46 
92.13 92.82 
91.93 92.63 


"Volume" "AdjClose" 
8050000 93 
11490000 93.46 
11460000 92.82 
10010000 92.63 
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1970-01-08 92.63 93.47 91.99 92.68 10670000 92.68 
1970-01-09 92.68 93.25 91.82 92.4 9380000 92.4 
1970-01-12 92.4. 92.67 91.2 91.7 8900000 91.7 


假如 你 已 经 下 载 了 该 文件 ， 并 且 用 文件 名 “sp500. csv” 保 存在 当前 运行 R 的 目录 中 ， 那么 
可 以 把 数据 载 人 到 R 中 并 用 之 创建 一 个 xts 对 象 ， 代 码 如 下 所 示 : 
> GSPC <- as.xts(read.zoo("sp500.csv", header = T)) 


假如 CSV 数据 文件 的 第 一 列 为 时 间 标 签 ， 则 zoo “里 的 read. zoo( ) 函数 可 以 读 取 该 CSV 数 
据 文 件 并 把 数据 转换 为 zoo HR, BRL as. xts( ) 把 读 取 的 结果 对 象 转换 为 xts 对 象 。 
3.2.3 从 网 站 上 获取 数据 

获取 S&P 500 指数 的 另 一 种 方法 是 使 用 Yahoo 财经 网 站 提供 的 免费 服务 ， 它 允许 以 CSV 数据 
文件 格式 下 载 股 票 报 价 。R 的 tseries 添加 包 有 函数 get. hist. quote( ) ， 该 函数 可 以 用 来 下 载 报价 
数据 到 一 个 zoo 对 象 。 下 面 就 是 一 个 使 用 该 函数 获取 S&P 500 报价 的 例子 。 


> library(tseries) 
> GSPC <- as.xts(get.hist.quote("^GSPC",start»"1970-01-02", 
quote=c("Qpen", "High", "Low", "Close", "Volume", "AdjClose"))) 


» head(GSPC) 


Open High Low Close Volume AdjClose 
1970-01-02 92.06 93.54 91.79 93.00 8050000 93.00 
1970-01-05 93.00 94.25 92.53 93.46 11490000 93.46 
1970-01-06 93.46 93.81 92.13 92.82 11460000 92.82 
1970-01-07 92.82 93.38 91.93 92.63 10010000 92.63 
1970-01-08 92.63 93.47 91.99 92.68 10670000 92.68 
1970-01-09 92.68 93.25 91.82 92.40 9380000 92.40 

H1-T PRX get. hist. quote( ) 返回 一 个 zoo 类 的 对 象 ， 所 以 我 们 用 函数 as. xts( ) 把 该 对 象 转换 

为 一 个 xts 对 象 。 注 意 ， 如 果 运 行 该 命令 ， 我 们 将 得 到 比 本 书 R 包 中 所 提供 的 数据 更 大 的 一 个 数 

[102] 据 集 。 如 果 想 确保 本 章 后 面 的 命令 得 到 和 本 书 中 同样 的 结果 ， 应 该 应 用 以 下 的 代码 ; 


> GSPC <- as.xts(get.hist.quote("^GSPC", 
start="1970-01-02", end='2009-09-15', 
quotezc("Üpen", "High", "Low", "Close","Volume","AdjClose"))) 
这 里 ,“2009 -09 -15” 是 本 书 添加 包 中 的 GSPC 对 象 的 最 后 一 个 记录 交易 日 期 。 
另外 一 种 通过 网 络 获取 数据 的 方法 (我们 后 面 会 看 到 ， 这 不 是 唯一 的 方法 ) 是 应 用 
quantmod (Ryan, 2009) 包 中 的 函数 getSymbols( ) 。quantmod 包 是 R 的 添加 包 ， 在 应 用 之 前 确 
保 该 包 已 经 安装 。 该 包 提 供 了 与 分 析 金 融 数 据 有 关 的 功能 ， 本 章 将 应 用 这 些 功能 。 函 数 
getSymbols( ) 和 该 包 中 的 其 他 范 数 一 起 提供 了 获取 不 同 来 源 交 易 数 据 的 相对 简单 、 但 是 功能 强 
大 的 方法 。 下 面 举例 说 明 该 函数 的 用 法 : 


> library(quantmod) 
> getSymbols("~GSPC") 


O ”你 可 能 要 间 这 里 为 什么 不 调用 郑 数 library( ) 来 载 人 添加 包 zoo, MAM xts 添加 包 依 赖 于 添加 包 zoo， 当 载 人 xts 
包 时 就 同时 载 人 了 200 包 。 
O WEBER. 
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PRX. getSymbols() 的 第 一 个 参数 是 一 个 符号 集合 ， 该 隐 数 将 从 不 同 网 站 或 本 地 数据 库 中 提 
取 这 些 符 号 所 对 应 的 交易 数据 ， 然 后 默认 返回 与 符号 同名 的 xts 对 象 ”。 这 些 操作 都 是 在 R 工作 
环境 下 自动 完成 的 。 你 可 以 证 实 返 回 的 对 象 数据 与 本 书包 中 数据 的 时 间 不 是 完全 相同 ， 列 的 名 
称 也 有 不 同 。 可 以 通过 下 列 代 人 码 修正 : 

> getSymbols("^GSPC", from = "1970-01-01", to = "2009-09-15") 

> colnames(GSPC) <- c("Open", "High", "Low", "Close", "Volume", 

4 "AdjClose") 

事实 上 ， 在 quantmod 包 提 供 的 框架 中 ， 可 以 有 多 个 符号 来 自 不 同 的 相关 数据 源 ， 每 个 都 有 
各 自 的 参数 。 这 些 设置 都 可 以 在 R 会 话 开 始 时 用 晴 数 setSymbolsLookup( ) 来 指定 ， 如 下 所 示 : 


> setSymbolLookup(IBM=list (name='IBM' ,src='yahoo' ), 
+ USDEUR=list (name-'USD/EUR',src*'oanda)) 
> getSymbols(c(IBM ,'USDEUR')) 


> head(IBM) 

IBM.Open IBM.High IBM.Low IBM.Close IBM.Volume IBM.Adjusted 
2007-01-03 97.18 98.40 96.26 97.27 9196800 92.01 
2007-01-04 97.25 98.79 96.88 98.31 10524500 93.00 
2007-01-05 97.60 97.95 96.91 97.42 7221300 92.16 
2007-01-08 98.50 99.50 98.35 98.90 10340000 93.56 
2007-01-09 99.08 100.33 99.07 100.07 11108200 94.66 
2007-01-10 98.50 99.05 97.93 98.89 8744800 93.55 


> head(USDEUR) 


USDEUR 
2009-01-01 0.7123 
2009-01-02 0.7159 
2009-01-03 0.7183 
2009-01-04 0.7187 
2009-01-05 0.7188 
2009-01-06 0.7271 


在 上 面 的 代码 中 ， 我 们 指定 了 两 个 符号 所 对 应 的 获取 行情 数据 的 网 站 : IBM 数 从 Yahoo 网 站 
获取 ; USDEUR (美元 和 欧元 ) 的 汇率 数据 从 Oanda 网 站 ?获取 。 

这 些 是 通过 肾 数 getSymbolsLookup( ) 完成 的 。 在 当前 R 会 话 中 ， 当 调用 getSymbols( ) 函数 
获取 以 上 设置 的 标识 符 数据 时 ,将 应 用 由 函数 getSymbolsLookup( ) 所 做 的 相关 设置 。 函 数 
saveSymbolLookup( ) 和 loadSymbolLookup( ) 分 别 用 来 在 不 同 的 R 会 话 中 保存 和 载 入 这 些 设置 。 如 
果 需 要 这 些 肾 数 的 更 多 例子 和 详细 解释 ， 请 参照 R 中 这 些 函 数 的 帮助 文档 。 

3.2.4 从 MySQL 数据 库 读 取 数据 

另 一 种 存储 数据 的 形式 是 在 MySQL 数据 库 里 。 在 本 书 的 网 站 上 ， 有 一 个 包含 SQL 语句 的 文 
件 ， 它 可 以 下 载 并 用 MySQL 来 执行 ， 从 而 上 载 S&P 500 数据 到 一 个 数据 库 表 里 。 有 关 应 用 和 创 
i£ MySQL 数据 库 的 内 容 可 以 参阅 1. 3 45, 

创建 一 个 数据 库 来 存储 数据 后 ， 就 可 以 准备 执行 SQL 语 名 了。 假设 该 文件 和 输入 的 MySQL 
命令 在 同一 个 目录 下 ， 同 时 ， 创 建 的 数据 库 名 为 Quotes。 登 录 到 MySQL, REWA: 


mysql» use Quotes; 
mysql> source sp500.sq1; 


旺 需要 首先 安装 廊 加 包 。 


© http://www. oanda con... 
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文件 “sp500. sql” “PAY SQL 语句 将 创建 一 个 名 为 gspc 的 数据 表 ， 并 把 这 个 案例 中 用 到 的 数 
据 插 人 到 表 中 。 你 可 以 在 MySQL 中 执行 以 下 语句 来 确认 数据 表 已 正常 建立 : 
mysql» show tables; 


中 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| Tables in Quotes | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| gspc | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 让 


1 row in set (0.00 sec) 


mysql» select * from gspc; 


最 后 一 条 SQL 语句 会 输出 大 量 数据 ， 即 标准 普尔 500 的 报价 数据 。 如 果 你 想 要 限制 输出 的 
数据 ， 你 可 以 在 以 上 命令 句 末 属 添 加 limit 10。 

ER 中 有 两 种 方式 和 数据 库 进 行 通信 。 一 种 方式 是 基于 ODBC 协议 ， 另 一 种 是 基于 DBI 包 
提供 的 通用 接口 和 每 个 数据 库 管 理 系统 (DBMS) 专 有 的 包 。 

如 果 你 决定 应 用 ODBC 协议 ， 那 么 你 要 确认 可 以 应 用 该 协议 和 数据 库 通信 ， 这 可 能 需要 在 数 
据 库 端 安装 相关 的 驱动 程序 。 在 R 端 ， 需 要 的 是 安装 RODBC 包 。 

DBI 包 实 现 了 一 系列 的 数据 库 接 口 函 数 ， 这 些 函 数 独立 于 实际 上 存储 数据 的 数据 库 服务 器 。 
只 需要 在 最 初 和 数据 库 建立 连接 时 指出 用 户 将 应 用 哪 一 个 通信 接口 。 当 改变 数据 库 时 ， 你 只 要 
改变 一 条 指令 即 可 〈 该 指令 指出 你 希望 通信 的 数据 库 ) 。 为 了 获取 这 种 独立 性 ， 用 户 需 要 安装 其 
他 的 R 包 来 处 理 不 同 数据 库 的 通信 细节 。 对 于 常用 的 数据 库 ，R 有 许多 专 有 的 数据 库 包 。 这 里 ， 
为 了 和 存储 于 服务 器 上 的 MySQL 数据 库 通信 ， 我 们 需要 RMySQL 包 (James and DebRoy, 2009) , 

3.2.4.1 Æ Windows 系统 上 加 载 数 据 到 及 中 

如 果 在 Windows 系统 上 运行 R， 那 么 无 论 MySQL 数据 库 服务 器 是 在 该 台 计 算 机 上 ， 还 是 在 
另 一 台 计 算 机 上 (可 以 是 其 他 操作 系统 ) ， 从 R 连接 该 数据 库 的 最 简便 方法 是 通过 ODBC (开放 
数据 库 互 连 ) 协议 。 为 了 在 R 中 使 用 这 个 协议 ， 需 要 安装 RODBC 添加 包 。 

第 一 次 使 用 ODBC 协议 连接 任何 MySQL 数据 库 前 ,需要 一 些 额 外 的 步 又 ， 即 你 需要 在 
Windows 系统 上 安装 MySQL ODBC 驱动 程序 ， 它 称 为 “myodbc”， 可 以 从 MySQL 网 站 上 下 载 。 这 
个 步骤 只 在 第 一 次 使 用 ODBC 来 连接 MySQL 数据 库 时 和 需要。 安装 好 这 个 驱动 程序 后 ， 就 可 以 创 
建 到 MySQL 数据 库 的 连接 ， 这 个 数据 库 可 以 是 在 你 的 计算 机 上 或 者 其 他 可 以 从 网 络 中 访问 到 的 
计算 机 上 。 根 据 ODBC 协议 ， 创 建 的 每 个 数据 库 连 接 都 有 一 个 名 字 (根据 ODBC 的 术语 ， 该 连接 
称 为 数据 源 名 )。 这 个 名 字 用 来 从 R 来 访问 MySQL 数据 库 。 

在 Windows 计算 机 上 创建 一 个 ODBC 连接 ， 需 要 一 个 称 为 “ODBC 数据 源 ” 的 程序 ， 可 以 在 
Windows 系统 的 控制 面板 上 找到 该 程序 。 运 行 这 个 程序 后 ,需要 用 MySQL ODBC 驱动 程序 
(myodbc) 创建 一 个 新 的 用 户 数据 源 。 在 创建 数据 源 的 过 程 中 ， 有 几 个 问题 会 问 到 ， 比 如 MySQL 服 
务 器 地 址 (如 果 是 本 机 ， 则 为 localhost; 如 果 是 远程 主机 ， 则 形 如 myserver xpto. pt); 需要 建立 连 
接 的 数据 库 名 ; 还 有 该 连接 的 名 称 。 一 旦 完成 这 个 过 程 后 ， 就 可 以 从 R 连接 MySQL 数据 库 了 。 

以 下 R 代码 建立 了 一 个 到 Quotes 数据 库 的 连接 ， 并 且 把 S&P 500 数据 加 载 到 R, 


> library (RODBC) 

> ch <- odbcConnect ("QuotesDSN" , uid="myusername" , pwd="mypassword") 
> allQuotes <- sqlFetch(ch, "gspc") 

> GSPC <- xts(allQuotes[,-1],order.by-as.Date(allQuotes[,1])) 

> head (GSPC) 


Open High Low Close Volume AdjClose 
1970-01-02 92.06 93.54 91.79 93.00 8050000 93.00 
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1970-01-05 93.00 94.25 92.53 93.46 11490000 93.46 
8 


1970-01-06 93.46 93.81 92.13 92.82 11460000 92.82 
1970-01-07 92.82 93.38 91.93 92.63 10010000 92.63 
1970-01-08 92.63 93.47 91.99 92.68 10670000 92.68 
1970-01-09 92.68 93.25 91.82 92.40 9380000 92.40 


> odbcClose (ch) 


加 载 RODBC 包 后 ， 用 先前 创建 的 DSN 使 用 odbcConnect() 函数 建立 与 数据 库 的 连接 。 然 
后 用 sqlFetch( ) BR ( 它 包 含 了 表格 的 所 有 行 ， 并 作为 数据 框 对 象 返回 ) 查询 数据 表 。 下 一 个 
步骤 就 是 利用 日 期 信息 和 交易 数据 从 这 个 数据 框 创 建 一 个 xts 对 象 。 最 后 ， 用 odbeClose() pK% 
关闭 与 数据 库 的 连接 。 

当 使 用 特别 大 的 数据 库 时 ， 这 里 要 注意 的 是 : 如 果 查 询 产 生 的 结果 太 多 ， 以 至 于 计算 机 内 存 
存储 不 下 ， 那 么 你 就 不 得 不 用 其 他 的 策略 。 你 可 以 尝试 对 数据 进行 分 块 处 理 ， 这 需要 在 函数 
sqglFetch( ) 和 sglFetchMore( ) 中 设置 max 参数 。 

也 可 以 考虑 应 用 其 他 方法 ， 例 如 考虑 R 中 提供 高 性 能 和 并 行 计算 功能 的 包 , ff fa ( Aoler et 
al , 2010), 

3.2.4.2 在 Linux 系统 上 加 载 数据 

如 果 在 类 UNIX 系统 上 运行 R， 那 么 连接 MySQL 数据 库 最 容易 的 途径 是 通过 DBI 包 与 RMySQL 
ANGE. XH, ODBC 协议 对 Linux 系统 也 是 可 用 的 。 有 了 RMySQL 包 后 ， 你 就 不 需要 像 应 用 
RODBC 包 那 样 的 准备 步骤 。 安 装 完 RMySQL 包 后 ， 你 就 可 以 开始 使 用 它 ， 用 法 如 下 所 示 : 

> library(DBI) 

> library(RMySQL) 

> drv <- dbDriver("MySQL") 

> ch <- dbConnect (drv,dbname="Quotes", "myusername", "mypassword") 

> allQuotes <- dbGet(Query(ch,"select * from gspc") 


> GSPC «- xts(allQuotes[,-1],order.by-as.Date(allQuotes[,1])) 
> head(GSPC) 


Üpen High Low Close Volume AdjClose 
1970-01-02 92.06 93.54 91.79 93.00 8050000 93.00 
1970-01-05 93.00 94.25 92.53 93.46 11490000 93.46 
1970-01-06 93.46 93.81 92.13 92.82 11460000 92.82 


1970-01-07 92.82 93.38 91.93 92.63 10010000 92.63 
1970-01-08 92.63 93.47 91.99 92.68 10670000 92.68 
1970-01-09 92.68 93.25 91.82 92.40 9380000 92.40 


» dbDisconnect (ch) 
[1] TRUE 


> dbUnloadDriver(drv) 


MRE, HAX dbDriver() 和 dbConnect() 打开 与 数据 库 的 连接 。 用 函数 dbGetQuery 向 
数据 库 发 送 一 个 SQL 查询 ， 然 后 收 到 一 个 数据 框 结 果 。 通 常情 况 下 ， 把 结果 转换 为 xts 对 象 后 ， 
用 dbDisconnect() 和 dbUnloadDriver( ) 关闭 数据 库 连 接 。 

另外 ， 可 以 应 用 quantmod 包 提 供 的 函数 来 应 用 MySQL 数据 库 中 的 数据 。 事 实 上 ， 可 以 把 


O 这 里 要 用 你 在 Windows 控制 面板 中 创建 的 数据 源 (DSN) 和 你 的 MySQL 用 户 名 和 密码 。 
© http;//cran. at. r-project. org/ web/views/HighPerformanceComputing. html. 
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MySQL 数据 库 作 为 函数 getSmbols( ) 的 一 个 数据 源 。 示 例如 下 : 


> setSymbolLookup(GSPC=list (name-'gspc',src-'mysql', 

+ db.fields-c('Index','Open','High','Low','Close','Volume','AdjClose'), 
+ user-*xpto',password-'ypto',dbname- Quotes')) 

> getSymbols('GSPC') 


[1] "GSPC" 


3.9 定义 预测 任务 


一 般 来 说 ， 本 章 的 目的 是 预测 S&P 500 指数 的 未 来 价格 ， 据 此 可 以 及 时 进行 交易 以 从 中 获 
利 。 有 了 分 析 目 标 后 ， 就 可 以 容易 地 定义 模型 需要 预测 的 对 象 一 一 预测 价格 时 间 序 列 的 未 来 值 。 
然而 ， 即 使 面 对 这 个 简单 的 任务 ， 我 们 也 立即 面临 几 个 问题 : 1) 采用 哪 一 个 每 日 价格 ; 2) fi 
测 未 来 哪个 时 间 。 这 些 问 题 并 不 容易 回答 ， 它 通常 取决 于 在 下 达 交 易 命 令 时 如 何 应 用 预测 结果 。 
3. 3.1 预测 什么 

3.5 节 将 学 习 的 交易 策略 假设 我 们 可 以 预测 未 来 几 天 的 市 场 变化 趋势 。 如 果 这 个 预测 在 未 来 
镁 验证 是 正确 的 ， 那 么 基于 该 预测 下 达 的 交易 指令 将 是 获 利 的 。 

假设 从 交易 方面 看 ， 我 们 认为 价格 变动 超过 p% 时 值得 交易 〈 即 获 利 超过 交易 费用 ) 。 在 这 
个 假设 下 ， 我 们 需要 预测 模型 来 预测 在 未 来 天 中 是 否 能 够 获得 这 个 边际 利润 *。 注 意 ， 在 这 上 
天 中 ， 实 际 上 可 以 观察 的 价格 可 能 高 于 这 个 比例 和 低 于 这 个 比例 。 这 意味 者 ， 预 测 未 来 某 个 特定 
时 间 : +k 的 报价 可 能 不 是 最 好 的 方法 。 事 实 上 ， 我们 需要 预测 的 是 在 未 来 天 中 价格 总 的 动态 变 
化 ， 并 不 是 预测 某 个 特定 时 间 的 一 个 特定 价格 。 例 如 ， 在 时 间 +E 的 收盘 价 的 变化 可 能 比 p% 低 
得 多 ,但 是 在 它 前 面 日 期 :，…, t+& 的 价格 变化 可 能 远 远 大 于 p%。 因 此 ， 我们 事实 上 需要 的 
是 未 来 大 天 的 总 体 价格 趋势 。 

我 们 从 报价 数据 计算 一 个 变量 ， 它 可 以 作为 未 来 下 天 的 趋势 指标 值 。 这 一 指标 值 应 与 我 们 对 

接 下 来 的 上 天 能 够 获得 p% 的 价格 变化 的 信心 相关 。 在 这 个 阶段 ， 重 要 的 是 要 注意 ， 当 我 们 提 到 

Pp 的 变化 时 ， 它 的 意思 是 高 于 或 低 于 目前 的 价格 。 这 里 的 想法 是 ， 正 的 变化 将 导致 天 入 ， 而 负 
的 变化 将 触发 卖 出 行动 。 这 里 我 们 给 的 指标 把 趋势 作为 一 个 单一 的 值 ， 正 值 表示 向 上 的 趋势 ， 负 
值 表示 价格 同 下 的 趋 努 。 

假设 每 天 的 平均 价格 可 以 由 下 面 公式 来 近似 ， 

— G+H, +L 


pec (3-2) 


KB, C. AMAL 分 别 为 第 半天 的 收盘 价 、 最 高 价 和 最 低 价 。 
Wt VV 代表 未 来 上 天 的 平均 价格 相对 今天 收盘 价 的 百分比 变化 (通常 称 为 算术 收益 ): 





= P, — C, : z 
v= | 7 } (3-3) 
我 们 把 动态 变化 绝对 值 超过 目标 收益 poe Bue estf: RINE A—TIB PS BS: 
T, = V iv e Vw > p% V v» « — p9t | (3-4) 


指标 变量 T 用 来 找 出 在 天内， 日 平均 价格 明显 高 于 目标 变化 的 那些 日 期 的 变化 之 和 。 大 的 
正 了 值 意味 着 有 几 天 的 日 平均 报价 高 于 今天 收盘 价 的 p% ， 这 种 情况 表明 有 潜在 的 机 会 发 出 买 人 
指令 ， 因 为 有 良好 的 预期 价格 会 上 涨 。 另 一 方面 ， 大 的 负 了 值 表 明 价格 可 能 下 降 ， 可 以 进行 卖 出 


局 ”显然 我 们 不 希望 等 待 若干 年 才能 获得 该 边际 利润 。 
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行动 。 如 果 T 了 值 接近 零 ， 则 可 能 是 由 于 价格 平稳 波动 或 者 价格 涨 跌 互 现 ， 正 的 变化 和 货 的 变化 互 
相抵 消 。 
下 面 的 函数 实现 这 个 简单 的 指标 : 
> T.ind <- function(quotes, tgt.margin = 0.025, n.days = 10) { 
+ v <- apply(HLC(quotes), 1, mean) 
r <- matrix(NA, ncol = n.days, nrow = NROW(quotes)) 
for (x in 1:n.days) r[, x] <- Next(Delt(v, k = x), x) 
x <- apply(r, 1, function(x) sum(x[x > tgt.margin | x < 
-tgt.margin])) 
if (is.xts(quotes)) 
xts(x, time(quotes)) 
* else x 


+ } 

根据 式 (3-2), KAH AHAH. PRI HLC( ) 从 价格 对 象 中 提取 价格 的 最 高 价 、 
最 低 价 和 收盘 价 。 然 后 ， 计 算 未 来 n. days 天 相对 当前 收盘 价 的 收益 。 函 数 next( ) 按时 间 平 移 
一 个 时 间 序 列 (向 前 或 向 后 ) Delt() 函数 可 用 于 计算 价格 序列 的 百分比 收益 或 对 数 收益 。 
最 后 ，T. ind( ) 函数 将 绝对 值 大 的 收益 相 加 ， 也 就 是 说 ， 收 益 超过 目标 变化 收益 ， 默 认 设置 
为 2.5%。 

3-1 可 以 更 好 地 理解 指标 了 的 性 质 ， 绘 图 的 代码 如 下 : 

> candleChart(last(GSPC, "3 months"), theme = "white", TA = NULL) 

> avgPrice <- function(p) apply(HLC(p), 1, mean) 

» addAvgPrice «- newTA(FUN - avgPrice, col - 1, legend - "AvgPrice") 

> addT.ind <- newTA(FUN = T.ind, col = "red", legend = "tgtRet") 

> addAvgPrice(on = 1) 

> addT.ind() 


*okROROR GR + 
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B] 3-1 最 后 3 个 月 的 标准 普尔 500 指数 和 我 们 的 指标 线 图 


函数 candleChart( ) 绘制 股票 价格 的 K 线 图 。K 线 图 用 一 个 彩色 的 框 和 竖 直 的 柱 条 来 代表 每 
日 报价 情况 。 柱 条 代表 当天 的 最 高 、 最 低 价格 ， 而 框 代 表 开 盘 价 和 收盘 价 。 框 的 颜色 用 来 表示 框 
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的 顶部 所 代表 的 价格 (开盘 价 还 是 收盘 价 ) ， 即 在 一 天 中 价格 是 下 降 (图 3-1 中 为 黑色 ， 而 交互 
式 R 输 出 的 图 形 为 橘 色 ) 还 是 上 升 (图 3-1 中 为 白色 ,在 了 中 给 出 的 为 绿色 ) 。 我 们 在 同一 张 开 

线 图 中 ， 增 加 了 另外 两 个 指标 : 平均 价格 (和 线 在 同一 张 图 上 ) AT CP). RK 
newTA() 可 用 于 绘制 新 的 函数 指标 并 加 入 到 已 有 的 K 线 图 中 。 该 函数 的 返回 值 是 一 个 绘图 函数 ”! 
这 意味 着 可 以 像 调 用 R 的 其 他 函数 一 样 来 调用 对 象 addT. ind 和 对 象 addAvgPrice。 这 由 最 后 两 条 
指令 来 完成 ， 每 一 条 指令 把 一 个 指标 绘制 到 前 面 用 candleChart( ) 得 到 的 线 图 中 。 每 条 指令 都 
增加 一 个 指标 让 candleChart( ) 函数 产生 初始 图 形 。 调 用 吗 数 addAvgPrice( ) 的 参数 为 1， 这 意味 
着 该 指标 将 被 绘制 到 第 一 个 图 形 窗 口中 ， 即 前 面 得 到 的 KK 线 图 中 。 调 用 函数 addT. ind( ) 时 采用 
默认 参数 (而 不 是 设 为 1)， 这 导致 在 KK 线 图 下 绘制 新 的 图 形 。 由 于 指标 7 了 的 量 纲 和 KK 线 图 不 
同 ， 所 以 在 另 一 个 图 形 中 绘制 7 是 合理 的 。 

如 图 3-1 所 示 ， 当 有 一 系列 的 时 期 价格 上 升 时 ，7 值 达到 了 最 大 。 显 然 ， 为 了 计算 在 时 间 i 
时 指标 了 的 取 值 ， 需 要 有 未 来 10 天 的 价格 ， 因 此 这 里 不 是 用 了 来 预测 未 来 价格 。 预 测 未 来 价格 
不 是 指标 了 的 目的 ， 其 目的 是 把 未 来 观测 到 的 价格 变化 概括 为 一 个 单一 的 值 。 

本 案例 的 方法 假设 在 时 刻 t 的 正确 交易 行为 是 和 我 们 对 未 来 上 天 价格 的 变化 预期 相关 的 。 我 
们 用 指标 了 来 描述 未 来 价格 的 变化 。 如 果 了 值 高 于 一 个 给 定 的 界限 值 ， 那 么 正确 的 交易 信和 号 应 该 
E “KA”; 如 果 了 值 低 于 一 个 给 定 的 界限 值 ， 那 么 正确 的 交易 信和 号 将 是 “ 卖 出 "。 在 其 他 情况 
下 ,正确 的 交易 方式 将 是 什么 也 不 做 《 即 挂 有 )。 总 之 ， 我们 想 要 预测 时 刻 t 的 正确 交易 信号。 
对 于 历史 价格 数据 ,我 们 将 计算 每 天 的 了 值 ， 并 用 给 定 的 界限 值 ， 用 上 面 给 出 的 方法 得 到 每 一 天 
的 正确 信和 号。 

3.3.2 预测 变量 是 什么 

我 们 已 经 确定 用 指标 (T) 来 总 结 接 下 来 上 天 的 价格 时 间 序 列 行为 。 数 据 挖 扬 的 目标 是 预测 
这 种 行为 。 试 图 预测 未 来 金融 市 场 行为 背后 的 主要 假设 是 通过 观察 市 场 过 去 的 行为 可 以 对 未 来 
做 出 预测 。 更 确切 地 说 ,我们 假设 如 果 过 去 某 些 行为 p 之 后 是 另 一 个 行为 f/， 并 且 如 果 这 一 因果 
链 经 常 发 生 ， 那 么 假设 这 一 现象 未 来 也 会 再 次 发 生 就 是 合理 的 。 所 以 如 果 我 们 现在 观察 到 现象 
Pp， 我 们 就 可 以 预测 下 面 将 观察 到 现象 f。 我 们 用 指标 了 来 近似 表示 未 来 的 行为 (有 。 我 们 下 面 将 

给 出 如 何 描述 近期 的 价格 模式 ( 即 上 面 描述 的 现象 p)。 这 里 不 是 使 用 一 个 单一 的 指标 来 描述 价 
格 的 近期 动态 ， 而 是 使 用 多 个 指标 来 描述 价格 时 间 序 列 的 不 同属 性 ， 据 此 进行 预测 任务 。 

我 们 可 以 使 用 的 描述 过 去 最 简单 的 信息 类 型 是 最 近 观 测 到 的 价格 。 通 俗 地 说 ， 这 也 是 多 个 
标准 时 间 序 列 建 模 方 法 所 应 用 的 方法 。 这 些 方法 对 时 间 序 列 未 来 值 和 该 序列 过 去 g 个 观测 值 窗口 
之 间 的 关系 建 模 。 我 们 除了 描述 当前 时 间 序 列 的 动态 特性 外 ， 还 会 考虑 最 近 一 个 窗口 时 期 的 价 
格 特征 。 

技术 指标 反映 价格 时 间 序 列 特征 的 数值 汇总 。 尽 管 应 用 这 些 指标 作为 决定 交易 的 工具 仍然 
具有 和 争议 性 ， 但 它们 仍然 可 以 提供 价格 时 间 序 列 动态 特征 的 有 意义 的 汇总 。 有 大 量 的 技术 指标 ， 
fr R 的 添加 包 TTR 中 可 以 找到 这 些 指 标 (Ulrich, 2009), 

这 些 技术 指标 通常 用 来 获取 价格 序列 的 某 些 特征 ， 例 如 价格 是 否 波动 太 大 、 是 否 有 某 种 特 
定 趋势 等 。 在 本 案例 中 ， 我 们 不 会 花 大 量 时 间 来 寻找 适合 我 们 预测 任务 的 技术 指标 。 而 且 ， 对 于 
我 们 的 案例 ， 技 术 指 标的 选择 仍然 是 一 个 研究 课题 。 这 通常 称 为 变量 选择 问题 ， 它 用 来 从 所 有 已 
知 的 输入 变量 中 找到 最 适合 建 模 的 那个 子 集 。 变 量 选择 方法 通常 分 为 两 类 :; 1) 变量 过 滤器 ; 
2) 变量 封装 。 前 者 的 变量 选择 独立 于 变量 选择 之 后 的 模型 构建 阶段 。 它 一 般 使 用 变量 的 某 些 统 


日 ”你 可 以 通过 输入 class( addT. ind) 来 确认 这 一 点 ， 或 者 输入 对 象 的 名 称 来 查看 该 对 象 的 内 容 。 
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计 特 性 (如 相关 ) 来 选择 用 于 建 模 的 数据 集 。 变 量 封装 方法 在 变量 选择 过 程 中 要 包含 后 面 要 构 
建 的 模型 信息 。 它 是 一 个 循环 选择 过 程 ， 在 循环 选择 过 程 的 每 一 步 中 ， 一 组 候选 变量 用 于 特定 的 
模型 并 记录 模型 的 相应 结果 。 基 于 选择 记录 的 结果 ， 用 某 些 搜寻 操作 确定 一 组 新 的 候选 输入 变 
量子 集 ， 重 复 这 个 过 程 直 到 定义 最 终 变 量子 集 的 收敛 准则 满足 。 

我 们 将 采用 简单 的 方法 来 选择 用 于 模型 的 变量 集合 。 这 里 通过 一 个 具体 的 例子 来 演示 如 何 
选择 变量 。 这 里 不 是 试图 找 出 适合 问题 的 最 佳 变 量子 集 ， 这 将 需 更 多 的 时 间 和 计算 资源 。 首 先 我 
们 给 出 一 组 初始 输入 变量 ， 然 后 用 一 个 方法 来 估计 这 些 变量 的 重要 性 。 基 于 它们 的 重要 性 ， 选 择 
最 适合 问题 的 变量 。 

由 于 买 人 / 卖 出 决策 是 在 每 天 交易 结束 后 ， 所 以 这 里 将 集中 于 收盘 价 的 分 析 。 初 始 的 输入 变 
量 由 多 个 基于 收盘 价 的 过 去 收益 构成 。 可 以 用 下 列 公式 来 计算 疡 天 (算术) 的 收益 ， 或 者 百 分 
比 收益 


E C; E Cion 


Ria Bi C. i (3-5) 


这 里 C, 是 第 i 天 的 收盘 价 。 

在 候选 输 人 变量 中 包含 了 下 从 1 -~10 的 10 个 百分比 收益 。 下 一 步 ， 从 R 添加 包 TTR 中 选择 
有 代表 性 的 技术 指标 集合 ， 即 平均 真实 范围 (Average True Range，ATR) ， 该 指标 是 衡量 价格 波 
动 的 指标 ; 随机 动量 指数 (Stochastic Momentum Index，SMI) ， 该 指标 是 一 个 动量 指标 ; BK 
斯 - 威 尔 德 (Welles Wilder) 定向 运动 指数 (ADX); Aroon 指标 ， 该 指标 找 出 开始 的 趋势 ; 布 林 
市 《Bollinger Bands) 指标 ， 它 比较 一 段 时 间 内 价格 的 波动 ; Bees (Chaikin Volatility) 指标 ; 
收盘 价位 置 价值 (Close Location Value，CLV) ， 该 指标 把 收盘 价 和 其 交易 范围 相 联 系 ; 阿 姆 氏 简 
易 波 动 指 标 (Ease of Movement Value, EMV); MACD 指标 ; 资金 流向 指数 (Money Flow Index, 
MFI) ;抛物 线 止 损 反 转 和 波动 性 指标 。 以 上 指标 的 详细 信息 可 以 在 R 添加 包 TTR 相应 函数 的 帮助 
页 面 中 找到 。 这 些 指标 的 大 部 分 给 出 了 多 个 值 变 易 决 策 。 如 前 所 述 ， 我 们 不 打算 使 用 这 些 指标 交 
易 。 因 此 ， 我 们 对 这 些 TTR 函数 的 输出 做 了 后 续 处 理 以 获得 一 个 单一 值 。 以 下 函数 实现 了 这 个 
过 程 : 

> myATR «- function(x) ATR(HLC(x))[, "atr"] 

» mySMI «- function(x) SMI(HLC(x))[, "SMI"] 

> myADX <- function(x) ADX(HLC(x))[, "ADX"] 

> myÁroon <- function(x) aroon(x[, c("High", "Low")])$oscillator 

> myBB «- function(x) BBands(HLC(x))[, "pctB"] 

> myChaikinVol «- function(x) Delt(chaikinVolatility(x[, c("High", 

+ "Low")]1)2[, 1] 

> myCLV <- function(x) EMA(CLV(HLC(x)))[, 1] 

> myEMV <- function(x) EMV(x[, c("High", "Low")], x[, "Volume"])[, 

* 2] 

> myMACD <- function(x) MACD(Cl(x))[, 2] 

» myMFI «- function(x) MFI(x[, c("High", "Low", "Close")], 

* x[, "Volume"]) 

> mySAR <- function(x) SAR(x[, c("High", "Close")])[, 1] 

> myVolat <- function(x) volatility(OHLC(x), calc = "garman")[, 

* 1] 

上 面 描述 的 变量 给 出 了 预测 指标 T 的 未 来 取 值 的 初始 预测 变量 集合 。 下 面 应 用 变量 选择 方 
法 把 这 22 个 预测 变量 进行 精简 。2.7 节 应 用 了 随机 森林 (Breiman, 2001) 方法 预测 海藻 的 频率 。 


a 对 数 收 益 的 定 交 为 logt C Ci. js 
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随机 森林 也 可 以 用 于 估计 预测 任务 中 变量 的 重要 性 。 不 严格 地 讲 ， 它 可 以 通过 计算 每 个 变量 被 
[113 ] 移 除 后 随机 森林 误差 的 增加 来 估计 变量 的 重要 性 。 在 某 种 意义 上 ， 这 种 方法 和 变量 封装 类 似 ， 它 
在 选择 变量 过 程 中 需要 用 到 模型 的 信息 。 然 而 ， 这 里 不 是 通过 循环 过 程 来 选择 变量 的 ， 另 外 我 们 
用 其 他 的 模型 来 预测 T， 这 就 是 说 ， 这 个 变量 选择 过 程 没有 对 其 他 预测 模型 进行 优化 ， 因 此 它 更 
像 是 变量 过 滤 。 
在 本 案例 中 ， 我们 把 数据 集 分 成 2 个 独立 的 子 集 : 1) 一 个 数据 集 用 于 构建 交易 系统 ; 
2) 另 一 个 用 于 测试 。 第 一 个 数据 集 由 S&P 500 指数 前 30 年 的 数据 构成 。 剩 下 的 数据 (大约 9 
^E) 用 于 最 终 交 易 系统 的 测试 。 基 于 此 ， 为 了 避免 出 现 有 偏差 的 结果 ， 最 终 的 测试 数据 不 用 于 
变量 选择 过 程 。 
用 训练 集 数 据 构 建 随机 森林 模型 ， 代 码 如 下 : 
> data(GSPC) 
> library(randomForest) 
> data.model <- specifyModel(T.ind(GSPC) ^ Delt(Cl(GSPC),k-1:10) + 
+ myATR(GSPC) + mySMI(GSPC) + myADX(GSPC) + myAroon(GSPC) + 
myBB(GSPC) + myChaikinVol(GSPC) + myCLV(GSPC) + 
CMO(C1(GSPC)) + EMA(Delt(Cl(GSPC))) + myEMV(GSPC) + 
myVolat(GSPC) + myMACD(GSPC) + myMFI(GSPC) + RSI(C1(GSPC)) + 
mySAR(GSPC) + runMean(Cl(GSPC)) + runSD(Cl(GSPC))) 
set .seed (1234) 
rf <- buildModel (data.model ,method='randomForest', 
training. per=c (start (GSPC) , index (GSPC["1999-12-31"])), 
ntree=50, importance=T) 
上 面 的 代码 使 用 函数 specifyModel() KRCHRRBRRER, RAARO E — i quantmod 
WR, 8015 — T EAR BUS (AAWE) 的 描述 。 该 描述 中 所 设 定 的 数据 可 以 有 不 同类 型 的 来 
源 ， 其 中 一 些 甚至 目前 还 不 在 计算 机 的 内 存 中 。 该 函数 将 调用 了 沙 数 getSymbols( ) 来 处 理 数 据 源 ， 
并 获取 必要 的 数据 。 对 于 后 面 的 建 模 阶段 而 言 ， 这 种 指定 数据 和 获取 必要 数据 的 方式 是 非常 方 
便 的 。 此 外 ， 对 于 来 源 为 网 络 的 数据 符号 ， 可 以 在 后 面 把 这 里 得 到 的 对 象 ( 在 我 们 例子 中 为 
data. model) 作为 图 数 getModelData( ) 的 参数 ， 用 该 函数 来 获取 包含 最 新 报价 数据 的 对 象 。 如 果 
要 使 交易 系统 适应 更 新 的 报价 信息 ， 这 种 方法 将 十 分 便利 。 
PREX buildModel( ) 使 用 得 到 的 模型 规范 ， 获 得 有 相应 数据 的 模型 。 通 过 参数 training. per, 
可 以 指定 建立 模型 所 用 的 数据 (这 里 使 用 的 是 前 30 年 的 数据 )。 目 前 该 函数 包含 了 多 个 内 置 的 
模型 ， 其 中 有 随机 森林 。 如 果 需 要 使 用 函数 buildModel( ) 中 没有 包含 的 模型 ， 可 以 使 用 函数 
modelData( ) 来 获取 数据 ， 然 后 使 用 你 喜爱 的 模型 来 建 模 。 下 例 给 出 演示 代码 : 


> ex.model <- specifyModel(T.ind(IBM) ^ Delt(Cl(IBM), k = 1:3)) 

> data €- modelData(ex.model, data.window = c("2009-01-01", 

+ "2008-08-10")) 

所 获得 的 data 对 象 是 一 个 标准 的 zoo XR, Ez nI LAB ZEE AR PESE, AREA 
参数 供 任何 建 模 函数 使 用 ， 如 下 面 的 演示 例子 ” : 


> m <- myFavouriteModellingTool (ex.model@model.fornula, 
as.data.frame(data)) 


tE, xx REGUM DAoRBUSZ XB). BRP “AS” ARA E AR specifyModel ( ) 
参数 中 提供 的 公式 完全 一 样 。 后 者 的 公式 用 来 获取 数据 , 但 “真正 ”的 公式 中 可 应 用 函数 


++ VV + + + 4+ 


S ”可以 查看 帮助 文档 了 解 有 哪些 模型 。 
已 ”不 要 运行 这 段 代 码 ， 这 是 一 段 “ 父 码 ”。 
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specifyModel() 得 到 的 任何 列 和 相应 的 名 称 。 这 些 信 息 包含 在 盟 数 specifyModel( ) 生成 的 quantmod 
对 象 的 model. formula 属性 中 。 

注意 ， 上 面 的 演示 代码 中 所 用 到 的 股票 (IBM)， 目 前 在 内 存 中 没有 该 股票 的 数据 。 
specifyModel( ) 函数 将 应 用 一 数 getSymbols( ) 透明 地 从 网 站 获取 该 股票 的 价格 数据 。 所 有 这 一 切 
对 用 户 都 是 透明 的 ， 用 户 甚 至 可 以 在 模型 规范 中 包含 来 源 不 同 的 数据 符号 (例如 ，3.2.3 节 中 应 
用 函数 setSymbolLookup( ) 的 例子 ) 。 

回 到 变量 选择 问题 ， 注 意 设 置 参数 importance = TRUE， 这 样 随机 森林 将 估计 变量 的 重要 性 。 
对 于 回归 问题 ，R 中 的 随机 森林 将 估计 两 个 可 选 变量 的 重要 性 分 数 。 第 一 个 分 数 是 当 依 次 删除 每 
个 变量 时 ， 随 即 森 林 错 误 增 加 的 百分比 。 在 每 个 变量 被 删除 时 ， 通 过 计算 树 在 样本 外 数据 上 的 均 
方 误差 的 增加 来 估计 该 指标 。 该 指标 是 对 森林 中 所 有 树 得 到 的 结果 进行 并 标准 化 得 到 的 。 第 二 
个 得 分 是 与 变量 导致 的 结 点 杂质 减少 有 关 ， 当 然 它 也 是 对 所 有 树 的 平均 值 。 我 们 将 使 用 第 一 个 
得 分 ， 因 为 它 是 在 随机 森林 (Breiman, 2001) 的 原始 文献 中 提 到 的 方法 。 得 到 模型 后 ， 我 们 可 
以 检查 变量 的 重要 性 ， 方 法 如 下 ; 

> varImpPlot(rf@fitted.model, type = 1) 115 

上 面 函 数 调 用 的 结果 在 图 3-2 Pih. PAS varImpPlot( ) 的 参数 是 随机 森林 和 我 们 想 绘制 的 
得 分 《如果 省 略 参 数 ， 将 绘制 两 者 ) 。 泛 型 因数 buildModel( ) 返回 作为 结果 产生 的 quantmod 对 
象 插 模 (fitted. model) 即 为 所 获得 的 模型 。 证 型 函数 buildModel ( ) 返回 的 模型 对 象 将 是 
quantmod 对 稼 的 一 个 属性 。 


runMaan.Cl.G5PC 


myMACD.GSPC 
Det CI GiaPC Kk.1.10. Dit. 1.2rithmatic 
iy Vole. GSPC 





3-2 根据 随机 森林 的 变量 重要 性 


现在 ， 我 们 需要 确定 一 个 界限 值 来 选择 重要 性 评分 高 的 变量 子 集 。 纵 观 图 3-2 的 结果 ， 因 为 
这 是 一 个 简单 的 用 随机 森林 来 选择 变量 的 例子 ， 所 以 我 们 将 使 用 界限 值 10: 


> imp <- importance(rfüfitted.model, type = 1) 
> rownames(imp)[which(imp > 10)] 


[1] "Delt.Cl.GSPC.k.1.10.Delt.1.arithmetic" 
[2] "myATR.GSPC" 
[3] "myADX.GSPC" 
[4] "myEMV.GSPC" 
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[5] "myVolat.GSPC" 
[6] "myMACD.GSPC" 

[7] "mySAR.GSPC" 

[B] "runMean.Cl.GSPC" 


函数 importance( ) 将 得 到 每 个 变量 的 具体 重要 性 分 数 〈 这 是 第 一 个 得 分 ) 。 然 后 ， 我 们 用 给 
定 的 界限 值 来 第 选用 于 建 模 的 变量 子 集 ， 我 们 将 在 我 们 的 模拟 尝试 中 使 用 这 些 变 量 。 利 用 变量 
重要 性 的 信息 ， 我 们 可 以 得 到 最 终 用 于 建立 模型 的 数据 集 : 


> data.model <- specifyModel(T.ind(GSPC) ^ Delt(Cl(GSPC), k = 1) + 
* myATR(GSPC) + myADX(GSPC) + myEMV(GSPC) + myVolat(GSPC) + 
+  myMACD(GSPC) + mySAR(GSPC) + runMean(Cl(GSPC))) 


3.3.3 预测 任务 

在 3.3.2 节 中 ,我 们 已 经 获得 一 个 quantmod 对 象 (data. model) ， 该 对 象 包含 了 用 于 建立 预 
测 模型 的 数据 集 。 这 个 数据 集 的 指标 了 作为 预测 指标 ， 一 系列 从 变量 选择 过 程 得 到 的 变量 将 作为 
预测 变量 。 在 3. 3. 1 节 中 已 经 看 到 ， 我 们 的 真正 目标 是 预测 在 任何 时 间 c 的 正确 交易 信号。 给 定 
我 们 在 前 一 节 生 成 的 数据 ， 如 何 进行 这 种 预测 呢 ? 下面 我 们 来 探索 获取 这 种 正确 交易 信号 预测 
值 的 两 种 途径 。 

第 一 种 预测 任务 是 应 用 了 值 作为 目标 变量 ， 然 后 尝试 获取 模型 ， 该 模型 应 用 预测 变量 的 信息 
预测 了 值 。 这 和 第 2 章 考虑 的 多 元 线性 回归 任务 相似 。 如 采 应 用 这 种 方法 ， 我 们 需要 把 模型 的 预 
测 值 转换 成 交易 信号 。 这 意味 着 需要 给 出 界限 值 来 决定 预测 的 了 值 对 应 三 种 交易 信和 号 的 哪 一 种 ， 
转换 公式 如 下 : 


32 tH T «-0.1 
signal = es -0.1<T<0.1 (3-6) 
买 人 T »0.1 


这 里 选择 界限 值 0.1 和 -0.1 纯粹 是 启发 式 的 ， 也 可 以 使 用 其 他 的 界限 值 。 然 而 ， 这 两 个 界限 值 的 
意义 是 ， 生 成 了 值 的 10 日 间 ， 至 少 有 四 天 的 平均 日 价 高 于 目前 收盘 价 2 5% (4 *0.025 20.1). m 
果 决 定 使 用 其 他 的 界限 值 ， 需 要 考虑 的 是 ， 太 大 的 界限 绝对 值 将 导致 更 少 的 信号 ， 而 太 小 的 界限 
值 可 能 会 导致 在 太 小 的 市 场 变化 时 进行 交易 ， 从 而 招致 更 大 的 风险 。 本 书 RBS BS PR C 
trading. signals( ) ， 可 以 进行 上 面 的 转换 ， 它 把 数值 型 的 了 值 转变 为 三 个 可 能 的 值 :“s”"、“h” 和 
“b”, PIRR., HAMRA. 

第 二 个 可 供 选 择 的 预测 任务 是 直接 预测 交易 信和 号， 这 意味 着 把 第 d 天 的 正确 信号 作为 目标 变 
量 。 怎 样 才能 获得 这 些 正 确信 号 呢 ? 这 里 仍然 使 用 指标 T 和 式 (3-6)。 对 于 可 用 的 历史 数据 ， 
我 们 通过 接 下 的 10 天 来 计算 指标 了 的 值 ， 然 后 用 式 (3-6) 中 的 界限 值 来 确定 信和 号， 从 而 得 到 每 

一 天 的 交易 信号 。 在 第 二 个 预测 任务 中 ， 目 标 变量 是 一 个 名 义 变 量 。 目 标 变量 为 名 义 变量 的 预测 
问题 称 为 分 类 任务 ”。 分 类 任务 (问题 ) 和 回归 任务 的 主要 区 别 是 目标 变量 的 类 型 。 回 归 任务 有 
一 个 数值 型 目标 变量 〈 例 如 ， 我 们 案例 中 的 了 指标 ) ， 而 分 类 任务 的 目标 变量 是 取 值 为 有 限 个 值 
的 名 义 变 量 。 不 同 的 方法 和 技巧 可 以 用 于 上 面 的 两 类 问题 。 

R 的 xts 添加 包 中 的 函数 基于 数值 型 数据 。xts 包 中 对 象 的 数据 属性 必须 是 向 量 或 者 失 阵 ， 即 
它们 是 单一 模式 的 数据 。 所 以 它 不 允许 训练 集 数据 的 一 列 为 名 义 变 量 CR 的 因子 ) ， 而 其 他 列 为 
数值 型 变量 。 为 了 克服 xts 的 这 个 问题 ， 我 们 在 xts 外 进行 建 模 的 整个 过 程 。 下 面 你 会 看 到 ， 这 
样 比较 简单 且 没有 任何 像 xts 那样 的 限制 。 我 们 用 xts 提供 的 功能 来 进行 数据 子 集 的 选取 和 绘图 ， 


名 ”有些 统计 机 构 称 该 方法 为 “判别 任务 ”。 
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建 模 阶 段 可 以 不 必 应 用 xts 的 功能 。 
下 面 的 代码 构造 本 节 下 面部 分 两 个 预测 任务 的 预测 模型 所 应 用 的 数据 结构 。 


> Tdata.train <- as.data.frame(modelData(data.model, 


* data. window=c ('1970~-01-02" ,'1999-12-31'))) 
> Tdata.eval <- na.omit(as.data.frame(modelData(data.model, 
+ data. window=c ('2000-01-01' ,'2009-09-15')))) 


> Tform <- as.formula('T.ind.GSPC ~ .') 


上 面 代码 中 的 Tdata. train 和 Tdata. eval 是 两 个 数据 框 ， 它 们 的 数据 分 别 用 于 模型 训练 阶段 和 
模型 评价 阶段 。 我 们 使 用 数据 框 作为 基本 数据 结构 ， 它 允许 分 类 任务 所 要 求 的 混合 模式 数据 集 。 
我 们 用 函数 trading. signals( ) 产生 数值 型 目标 变量 的 相应 信 叶 ， 然 后 用 信号 来 蔡 代 原 来 的 目标 变 
量 。 在 模型 选择 和 比较 过 程 中 没有 应 用 数据 框 Tdata eval， 在 评估 最 后 得 到 的 最 优 模型 时 才 应 用 
该 数据 框 。 调 用 函数 na. omit( ) 是 必要 的 ， 它 可 以 避免 在 数据 框 结束 部 分 由 于 没有 未 来 数据 计算 
7 值 所 导致 的 NA 值 。 

3.9.4 ”模型 评价 准则 

3. 3. 3 节 中 描述 的 预测 任务 获得 的 模型 可 以 给 出 未 来 市 场 方向 的 预测 值 。 对 回归 任务 而 言 
这 个 预测 值 是 一 个 数值 ( 即 了 值 的 预测 值 ) ， 对 分 类 任务 而 言 ， 这 个 预测 值 是 一 个 信号 。 上 面 已 
经 看 到 ， 即 使 在 回归 任务 的 情况 下 ， 我 们 用 一 个 界限 信 将 回归 模型 的 预测 值 转换 为 信号 。 在 3.5 
节 中 ， 我 们 将 描述 几 个 根据 这 些 预测 信号 进行 市 场 行为 的 交易 策略 。 本 节 不 讨论 如 何 评价 模型 
信号 预测 问题 。 我 们 不 考虑 了 指标 的 数值 预测 评价 。 由 于 我 们 不 直接 使 用 预测 的 数值 指标 7， 因 
此 评价 数值 型 预测 值 与 我 们 的 目标 不 相干 。 由 于 我 们 只 对 交易 信和 号 感 兴趣 ， 所 以 甚至 有 人 可 能 
质疑 这 些 回 归 任 务 是 否 有 意义 。 这 里 我 们 仍然 保持 这 些 数值 型 的 预测 任务 ， 因 为 不 同 的 交易 第 
略 可 能 会 利用 数值 型 预测 值 的 优势 ， 比 如 ， 当 开盘 时 ， 可 以 根据 数值 型 预测 值 的 大 小 来 决定 投 次 
金额 。 决 定 开盘 时 的 了 值 ， 如 果 远 远大 于 界限 值 (了 >0.1 决定 买 人 和 了 <-0.1 决定 卖 出 ) AL 


导致 更 大 的 投资 。 
可 以 通过 测量 错误 率 来 衡量 信号 预测 ， 错 误 率 的 定义 为 
error. rate = x Xin: Y) (3-7) 
这 里 y, 是 第 i 个 测试 数据 的 模型 预测 值 ， 而 真实 的 类 标签 为 y,，Lo, 是 0/1 损失 函数 ， 其 定义 为 : 
^ | y,*y, 
L(y) = ' 3-8 
(y, s) lo ees (3-8) 


有 时 候 经 党 采用 上 面 损失 函数 的 对 立 测度 ， 即 精确 度 ， 定 义 为 1 — error. rate, 

X (3-7) 和 式 (3-8) 中 定义 的 统计 量 都 是 用 来 把 模型 的 预测 值 和 未 来 下 天 市 场 上 真实 发 生 
的 结果 进行 比较 。 

精确 度 (或 者 错误 率 ) 被 证 明 不 是 衡量 分 类 问题 好 坏 的 最 佳 指标 。 事 实 上 ， 在 三 个 可 能 的 
结果 中 ， 它 们 极 不 平衡 。 在 金融 市 场 中 ， 大 的 价格 波动 比较 少 ， 所 以 “ 持 有 ”这 一 结果 出 现 的 
次 数 大 大 超过 另外 两 个 结果 出 现 的 次 数 ”。 这 就 意味 着 精确 度 值 将 主要 由 模型 在 出 现 最 多 的 结果 
(HÀ) 上 的 性 能 来 决定 。 然 而 , “ 持 有 ” 却 不 是 我 们 交易 所 关心 的 结果 。 我 们 需要 在 “罕见 ” 
事件 (KARERE) 上 预测 准确 的 模型 。 买 人 或 者 卖 出 事件 才 是 导致 市 场 行为 并 有 潜在 利润 
的 事件 ， 也 是 我 们 应 用 的 最 终 目标 。 


旺 ” 很 明显 这 取决 于 你 所 建立 的 目标 边际 利润 。 但是， 为 了 能 覆盖 交易 成 本 ， 应 该 设 定 该 边际 利润 足够 大 ， 所 以 ， 
这 里 的 “罕见 ”的 确 是 事实 情况 。 
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金融 市 场 预测 是 罕见 事件 驱动 应 用 的 一 个 例子 。 基 于 事件 的 预测 任务 通常 由 决策 精确 度 指 
标 和 回溯 精确 度 指标 来 衡量 ， 这 两 个 指标 可 以 集中 于 所 关注 事件 的 评估 而 不 是 常见 事件 的 评估 
(我 们 案例 中 的 “ 持 有 ”信和 号 即 为 常见 事件 )。 决 策 精 确 度 衡量 模型 给 出 的 事件 信和 号 的 正确 百 分 
EE; 而 回溯 精确 度 则 是 指 模型 给 出 的 事件 信号 占 事实 存在 的 百分比 。 通 过 分 类 和 矩阵 (又 称 为 混 
应 和 矩阵) 可 以 方便 地 计算 这 两 个 指标 。 分 类 和 矩阵 是 通过 比较 模型 的 预测 值 和 真实 值 ， 然 后 汇总 
得 到 的 。 表 3-1 给 出 了 本 案例 的 分 类 和 矩阵 。 
通过 表 3-1 ， 本 案例 的 决策 精确 度 和 回 湖 精 确 度 指 标 正 式 定 义 如 下 : 
ne, + n, 
N IN, 
n... 十 hss 
N, +N, 
表 3-1 ”预测 交易 信号 的 分 类 矩阵 


Prec = (3-9) 


(3-10) 





Hec - 


[XA | mw | 05 | ww | M 
| A | nm 和 [| nm | ww | N 


也 可 以 单独 对 某 个 特定 的 信和 号 (例如 买 信和 号 或 者 卖 信号 ) 计算 其 独立 的 决策 精确 度 和 回 淹 
精确 度 ， 例 如 : 


Prec, = N, (3-11) 
Rec, = vt (3-12) 


经 常 把 决策 精确 度 和 回溯 精确 度 合并 为 一 个 统计 量 ， 称 为 下 度量 〈Rijsbergen，1979 ) ， 合 并 
后 的 统计 量 为 : 
(B° +1) + Prec * Rec 
B + Prec + Rec 
这 里 0<B 三 1， 它 控制 回 斋 精确 度 相 对 决策 精确 度 的 相对 重要 性 。 


3.4 预测 模型 


在 本 节 中 ， 我 们 将 探讨 一 些 模 型 ， 通 过 运用 这 些 模 型 来 完成 3. 3 节 所 确定 的 预测 任务 。 我 们 
主要 通过 研究 模型 处 理 非 线 性 回归 问题 的 优 劣 来 选择 最 佳 模 型 ， 这 就 是 我 们 案例 中 所 要 研究 的 
问题 。 当 然 ， 许 多 其 他 的 方法 也 可 以 用 来 解决 这 个 问题 ， 在 研究 股票 收益 率 这 样 一 个 领域 中 ， 任 
何 一 个 更 好 的 研究 方法 都 必然 需要 经 历 更 多 的 比较 和 更 多 的 选择 。 在 本 书 上 下 文 的 背景 下 ， 这 

样 的 探索 将 由 于 其 需要 计算 空间 和 计算 能 力 方面 的 费用 而 显得 设 有 意义 。 

3.4.1 如 何 应 用 训练 集 数 据 来 建 模 

复杂 的 时 间 序 列 问 题 通常 有 着 不 同 的 表现 形式 ， 比 如 序列 由 波动 大 的 阶段 到 相对 较 平 稳 
的 阶段 ， 或 者 是 有 某 种 趋势 倾向 的 序列 。 这 些 类 型 的 序列 通常 称 为 是 非 平稳 时 间 序 列 ， 在 某 
些 模型 的 基本 假设 条 件 下 ， 非 平稳 序列 将 会 市 来 严重 的 问题 。 这 是 显而易见 的 ， 比 如 运用 我 
们 案例 中 的 数据 ， 画 出 价格 的 时 间 序 列 图 。 为 了 克服 由 非 平稳 序列 带 来 的 消极 影响 ,我 们 可 


(3-13) 
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以 使 用 一 些 方法 来 尝试 着 消除 这 些 影响 ， 比 如 使 用 适用 于 原始 时 间 序 列 的 一 些 转换 方法 ， 用 
收益 百分比 的 变化 来 替换 原来 的 绝对 价格 就 是 一 种 转换 方法 ， 也 可 以 对 已 经 获得 的 数据 有 选择 
地 使 用 。 假 设 需 要 用 给 定期 间 的 训练 集 数据 来 建立 一 个 预测 模型 ， 并 使 用 该 模型 获得 其 测试 时 
间 段 的 预测 值 。 标 准 的 做 法 是 用 训练 集 建立 模型 ， 然 后 将 模型 应 用 到 测试 集 获 取 预 测 值 。 如 果 我 
们 有 理由 相信 序列 在 某 个 时 间 点 发 生 了 变化 ,那么 用 同一 个 模型 来 预测 测试 时 间 段 的 数据 将 不 
是 最 好 方法 ， 尤 其 是 当 测 试 时 间 段 存在 一 个 改变 点 时 ， 它 将 会 严重 破坏 原 有 模型 的 性 能 。 在 这 种 
情况 下 ， 我 们 需要 改变 或 者 调整 模型 ， 使 模型 适应 最 近 的 数据 ， 这 样 模型 就 能 获取 当前 数据 的 
变化 。 

在 时 间 序 列 问题 中 ， 测 试 案例 中 有 一 种 隐 含 的 时 间 顺 序 。 在 上 下 文中 ， 假 设 当 我 们 获得 一 个 
时 间 序列 在 i 时 的 预测 时 ， 所 有 时 间 标 记 小 于 i 的 时 期 上 (kcu) 的 数据 就 已 经 属于 过 去 。 这 就 
意味 着 ， 假 设 我 们 已 经 知道 这 些 过 去 时 期 的 目标 变量 的 真实 值 ， 那 么 我 们 就 可 以 放心 地 使 用 这 
些 信 息 。 因 此 ， 如 果 在 测试 集 时 间 序 列 的 某 个 时 间 点 m， 我们 有 信心 相信 时 间 序 列 发 生 了 变化 ， 
那么 应 该 把 测试 集 时 间 序 列 时 间 点 m 之 前 的 所 有 观测 值 包 含 到 初始 训练 集 数据 中 ， 然 后 用 这 个 
包含 新 的 变化 信息 的 训练 集 数据 来 更 新 预测 模型 ， 这 样 就 可 以 提高 预测 模型 对 未 来 情况 的 预测 
性 能 。 更 新 模型 的 一 种 方式 就 是 使 用 新 的 训练 案例 数据 来 改变 原来 的 模型 。 这 些 方法 通常 称 为 
增 量 学 习 ， 因 为 它 更 新 模型 以 适应 最 新 的 信息 而 无 须 从 头 开始 。 目 前 还 没有 太 多 的 建 模 技巧 应 
用 这 种 更 新 模型 的 方式 ， 尤 其 是 在 R 中 ,没有 很 多 的 模型 可 以 采用 这 种 方式 。 在 本 书 中 ， 我们 
将 按照 其 他 的 方法 来 更 新 模型 ， 使 用 新 的 训练 数据 集 来 重新 建立 新 的 模型 。 这 显然 在 计算 方面 
更 有 难度 ， 尤 其 是 数据 到 达 速 度 很 快 ， 并 且 要 求 几乎 实时 地 给 出 模型 和 决策 时 ， 这 种 方法 就 不 适 
用 了 。 这 个 问题 在 应 用 研究 中 很 常见 ， 即 数据 流 问 题 。 在 我 们 的 应 用 程序 中 ， 我 们 在 每 天 收市 后 
做 出 决策 ， 因 此 速度 不 是 一 个 关键 问题 S。 假 设 我 们 使 用 一 种 重新 学 习 的 方法 ,我 们 有 两 种 基本 
的 形式 将 新 的 案例 纳入 训练 集中 。 不 断 增加 窗口 的 方法 只 是 简单 地 将 它们 添加 到 当前 的 训练 集 ， 
从 而 不 断 地 扩大 样本 集 。 这 种 方法 的 最 终 问 题 在 于 ， 由 于 我 们 假设 最 近 的 数据 是 有 助 于 建立 更 
好 的 模型 ， 所 以 我 们 也 会 考虑 我 们 最 早 的 那 部 分 训练 数据 是 不 是 已 经 过 时 了 ， 是 不 是 可 能 会 降 
低 模型 的 精确 性 呢 ? 基于 这 些 考虑 ， 在 滑动 窗口 方式 下 ， 在 删除 训练 集中 最 原 始 数据 的 同时 ， 加 
人 最 新 的 观察 数据 ， 从 而 保持 训练 集 的 大 小 不 变 。 

扩大 和 滑动 窗口 的 方法 都 涉及 一 个 关键 的 决定 : 什么 时 候 应 该 通过 纳入 更 新 的 数据 来 改善 
或 者 调整 模型 ? 解决 这 个 问题 主要 有 两 种 方法 。 第 一 种 方法 需要 通过 检查 来 估计 模型 的 预测 能 
力 从 什么 时 候 开始 降低 。 如 果 我 们 观察 到 在 某 个 时 候 ， 模 型 的 预测 性 能 突然 降低 ， 我 们 就 可 以 认 
为 在 这 时 模型 发 生 了 改变 。 这 种 方法 最 主要 的 挑战 就 在 于 给 出 模型 性 能 变化 的 合理 估计 。 我 们 
需要 尽快 地 检测 到 模型 性 能 的 变化 ， 但 又 不 能 对 模型 没有 捕获 的 一 些 噪声 案例 过 度 反 应 。 第 二 
种 更 简单 的 方法 是 在 常规 时 间 的 基础 上 更 新 模型 ， 也 就 是 说 ， 每 隔 w 个 测试 用 例 ， 用 更 新 的 数 
据 来 建立 新 的 模型 。 在 本 案例 中 ， 我 们 就 采用 这 种 方法 。 

总 之 ， 我 们 考虑 每 一 个 模型 应 用 会 用 到 以 下 三 种 不 同 的 方法 : 0) 所 有 的 测试 时 段 都 使 用 一 
个 模型 ; 2) 每 隔 w 天 更 新 数据 增长 窗口 ; 3) 用 每 隔 w 天 的 数据 滑动 窗口 。 图 3-3 说 明了 这 三 
种 方法 。 

趋势 变化 的 参考 文献 

时 间 序 列 数 据 的 趋势 变化 问题 是 统计 过 程控 制 ( 例 如 ，0akland，2007) 领域 长 时 间 研 究 的 
课题 ， 它 使 用 控制 图 检测 数据 的 突变 点 。 这 一 课题 受到 数据 流 的 影响 (例如 ，CGama and Gaber, 
2007)， 人 们 在 数据 控 握 领域 的 兴趣 不 断 增 加 。 多 部 作品 (Gama et al. ，2004; Kifer et al. , 


O 如 果 是 实时 交易 ， 即 在 交易 日 中 间 交 易 ， 则 速度 就 是 需要 关心 的 一 个 问题 。 
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2004; Klinkenberg, 2004) 已 经 解决 了 问题 ; 如 何 检测 制度 的 变化 ， 以 及 如 何 学 习 和 运用 在 这 些 
变化 方面 的 模型 。 

The Problem 

One shot testing | — lsimglemodelappliedoveralltestperiod | 


v NE——— 


3-3 三 种 形式 获得 测试 时 段 数 据 的 预测 


3.4.2 建 模 工具 

在 本 节 中 ， 我 们 简要 介绍 建 模 的 方法 ， 将 使 用 这 些 方法 来 完成 我 们 的 预测 任务 ， 并 说 明 在 R 
中 如 何 使 用 这 些 方法 。 

3.4.2.1 人 工 神 经 网 络 

人 工 神经 网 络 (Artificial Neural Network, ANN) 经 常 在 金融 预测 中 使 用 {例如 ，Deboeck， 
1994) ， 因 为 运用 人 工 神经 网 络 可 以 处 理 高 度 非 线性 问题 。R 的 添加 包 nnet 可 以 实现 前 馈 神经 网 
络 。 这 种 类 型 的 神经 网 络 是 最 常用 的 ， 也 是 我 们 将 要 使 用 的 神经 网 络 。 

人 工 神 经 网 络 中 由 相互 联系 的 计算 单元 ( 即 神 经 元 ) 构成 。 每 个 神经 元 执行 两 次 连续 的 计 
TW: 输入 的 线性 组 合 ; 之 后 对 前 面 结果 的 非 线 性 计算 得 到 的 输出 值 作为 神经 网 络 的 下 一 个 神经 
元 的 输入 。 每 个 神经 元 连接 都 有 一 个 相关 联 的 权重 。 要 构建 人 工 神经 网 络 ， 先 要 建立 网 络 体系 结 
构 ， 然 后 使 用 一 种 算法 来 计算 出 神经 元 之 间 的 连接 权重 。 

前 馈 人 工 神 经 网 络 按 层 来 组 织 神经 元 。 第 一 层 包 会 网络 输入 神经 元 ， 训 练 集 的 观测 值 通过 
这 些 输 入 神经 元 传递 给 网 络 。 最 后 一 层 包 含 了 任何 情况 下 传递 给 神经 网 络 输入 神经 元 的 神经 网 
络 预测 值 。 在 这 两 层 之 间 ， 通 常 有 一 个 或 多 个 “隐藏 ” 层 神经 元 。 权 重 更 新 算法 ， 比 如 反 向 传 
播 法 ， 试 图 获得 能 够 优化 某 个 误差 标准 的 连接 权重 ， 也 就 是 试图 确保 网 络 输出 与 提交 给 神经 网 
络 模型 的 训练 集 个 案 一 致 。 这 是 通过 在 网 络 输入 绪 点 多 次 传人 训练 个 案 来 进行 迭代 的 一 个 过 程 ， 
在 网 络 输出 结 点 获得 预测 值 并 计算 出 各 自 的 预测 误差 后 ， 通 过 更 新 网 络 中 的 权重 来 减 小 模型 的 
预测 误差 。 这 种 选 代 过 程 反复 进行 ， 直 到 满足 一 定 的 收敛 准则 。 

使 用 R 中 的 添加 包 nnet (Venables and Ripley, 2002) 中 的 一 个 函数 实现 了 带 有 隐藏 层 的 前 
馈 神经 网 络 。 通 过 该 函数 获得 的 网 络 ， 既 可 以 用 于 分 类 问题 ， 也 可 以 用 于 回归 问题 ， 因 此 它 适 用 
于 我 们 的 预测 任务 ( 见 3.3.3 节 )。 | 

人 工 神 经 网 络 对 预测 问题 中 变量 的 尺度 敏感 。 这 种 情况 下 ， 在 将 数据 应 用 到 神经 网 络 前 ， 先 
进行 数据 转换 是 很 有 意义 的 。 这 样 就 可 以 避免 神经 网 络 模型 的 性 能 受到 变量 尺度 的 影响 。 在 我 
们 的 案例 中 ， 先 进行 数据 的 标准 化 处 理 ， 使 所 有 变量 均 具 有 零 均值 和 标准 差 为 1。 通 过 下 面 的 公 
式 ， 可 以 很 容易 地 对 数据 集 的 每 一 列 应 用 下 列 公式 进行 转换 : 


fı = (3-14) 
av 


其 中 ,x 是 原始 变量 的 均值 ，o, 是 变量 工 的 标准 偏差 。 
PRX scale( ) 可 以 用 来 进行 上 面 的 数据 变换 ,在 本 书 的 R 添加 包 中 ,还 可 以 找到 函数 
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unscale( ) ， 这 个 函数 可 以 进行 标准 化 过 程 的 逆 运 算 ， 将 转换 后 的 数据 转变 为 原来 尺度 的 数据 。 
下 面 是 一 个 非常 简单 的 例子 ， 用 来 说 明 在 R 中 如 何 获取 和 使 用 这 种 类 型 的 神经 网 络 : 

> get.seed(1234) 

> library(nnet) 

> norm.data «- scale(Tdata.train) 

> nn <- nnet(Tform, norm.data[1:1000, ], size = 10, decay = 0.01, 

+ maxit = 1000, linout = T, trace = F) 

> norm.preds <- predict(nn, norm.data[1001:2000, ]) 

> preds <- unscale(norm.preds, norm.data) 

在 默认 情况 下 ， 函 数 nnet( ) 以 在 区 间 [ -0.5, 0.5) 的 随机 值 来 设置 结 点 之 间 链 接 的 初始 
权重 ,这 意味 着 连续 运行 两 次 有 完全 相同 参数 的 同一 函数 ， 得 到 的 实际 结果 可 能 不 同 。 为 了 确保 
可 以 得 到 相同 的 结果 ， 我 们 增加 了 调用 耻 数 set. seed( ) ， 这 个 郴 数 可 以 初始 化 随机 数 发 生 需 中 的 
种 子 值 ， 这 样 就 确保 了 可 以 得 到 与 本 书 中 一 样 的 结果 。 在 这 个 示例 中 ,我们 用 开始 的 1000 个 训 
练 集 观测 值 来 创建 神经 网 络 ， 并 用 接 下 来 的 1000 观测 值 来 测试 这 个 预测 模型 。 将 训练 数据 标准 
化 后 ,我们 调用 隆 数 nnet( ) 来 建立 模型 。 前 两 个 参数 是 R 中 任何 模型 的 函数 中 都 有 的 参数 。 模 
型 的 函数 形式 通过 一 个 公式 来 具体 化 ， 训 练 集 数 据 用 于 建立 模型 。 我 们 也 使 用 nnet( ) 函数 中 的 
一 些 参数 。 也 就 是 说 ， 参 数 size 用 来 指定 隐藏 层 中 的 结 点 个 数 。 这 里 使 用 的 参数 size 的 值 没 有 什 
么 神奇 配方 ， 人 们 通常 会 尝试 几 个 值 来 观察 神经 网 络 的 行为 。 尽 管 如 此 ， 可 以 合理 地 假设 该 参数 
的 值 小 于 问题 中 预测 变量 的 个 数 。 参 数 decay 控制 反问 传播 算法 权重 的 更 新 率 。 而 且 ， 实 验 和 查 
错 是 最 重要 的 方法 。 最 后 ， 参 数 mait 控制 权重 收敛 过 程 所 允许 使 用 的 最 大 迭代 次 数 ; 而 参数 [124] 
linout = T VFA pRB AE Ah EH [a Wf] eA; 参数 trace = 了 是 用 来 避免 一 些 和 优化 过 程 有 关 的 结果 被 
输出 。 

函数 prediet( ) 可 以 用 来 获得 测试 数据 集 的 神经 网 络 预测 值 。 取 得 这 些 预测 值 后 ， 我 们 使 用 
本 书 R 添加 包 中 提供 的 函数 unsacale( ) 转换 为 原来 尺度 的 数据 。 这 个 清 数 的 第 一 个 参数 是 预测 
值 ， 第 二 个 参数 是 含有 标准 化 数据 的 对 象 。 后 一 个 参数 中 的 对 象 是 必要 的 ， 因 为 该 对 象 中 存储 了 
用 于 标准 化 数据 的 均值 和 标准 差 ”>， 这 两 者 是 逆转 标准 化 过 程 所 必需 的 。 

让 我 们 来 评估 人 工 神经 网 络 模型 预测 测试 集 信号 的 准确 性 。 我 们 可 以 将 数值 型 预测 值 转换 
成 信号 ， 然 后 使 用 3.3. 4 节 中 的 统计 方法 。 


> sigs.on <- trading.signals(preds, 0.1, -0.1) 

> true.sigs <- trading.signals(Tdata.train[1001:2000, "T.ind.GSPC"], 
+ 0.1, -0.1) 

» sigs.PR(sigs.nn, true.sigs) 


precision recall 
s  0.2101911 0.1885714 
b 0.2919255 0.5911950 
s+b 0.2651357 0.3802395 


4 Hl A EEA ANSE RBS FPR, PRB trading. signals( ) 可 以 将 预测 数值 转换 成 信号 。 郴 
数 sigs. PR( ) 可 以 获得 我 们 关心 的 两 类 事件 以 及 决策 精确 度 和 回溯 精确 度 和 矩阵 。 这 些 值 表明 人 
工 神 经 网 络 的 预测 性 能 并 不 是 很 好 。 实 际 上 ， 会 得 到 相当 低 的 预测 精确 度 ， 回 湖 精 确 度 值 也 不 是 
很 好 。 但 是 ， 后 者 比较 差 所 导致 的 问题 不 是 太 严 重 ， 因 为 它 基本 上 意味 着 失去 机 会 而 不 意味 着 有 
成 本 损失 。 另 一 方面 ， 预 测 精确 度 的 较 小 值 意味 着 该 模型 频繁 给 出 错误 信号 。 如 果 这 些 信号 被 用 
来 交易 ， 就 可 能 导致 严重 的 损失 。 


O ”作为 对 象 的 属性 。 
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人 工 神经 网 络 也 可 以 用 于 分 类 问题 。 对 于 这 类 问题 ， 在 网 络 拓扑 方面 最 主要 的 区 别 在 于 不 
是 一 个 单一 的 输出 单位 ， 我 们 将 有 和 目标 变量 值 (有 时 称 为 类 变量 ) 一 样 多 的 输出 单位 ， 这 些 
输出 单位 的 每 一 个 都 将 产生 各 自 类 值 的 概率 估计 。 这 意味 着 ， 对 于 每 一 个 测试 个 案 ， 人 工 神经 网 
络 可 以 产生 一 组 概率 值 ， 每 一 个 概率 值 相应 于 一 个 可 能 的 类 值 。 
使 用 nnet() 函数 来 完成 这 个 任务 与 使 用 该 函数 解决 回归 间 题 很 相似 。 使 用 训练 数据 并 应 用 
[125] 下 面 的 代码 进行 演示 : 


> get.seed(1234) 

> library(nnet) 

> signals <- trading.signals(Tdata.train[, "T.ind.GSPC"], 0.1, 
+ -0.1) 


> norm.data <- data.frame(signals = signals, scale(Tdata.train[, 
+ -1])) 
> nn <- nnet(signals ^ ., norm.data[1:1000, J], size = 10, decay = 0.01, 
+ maxit = 1000, trace = F) 
> preds <- predict(nn, norm.data[1001:2000, ], type = "class") 
这 里 的 参数 type = "class" 是 用 于 获得 测试 集 个 案 的 类 标签 ， 而 不 是 概率 的 信 计 值 。 在 神经 网 
络 预 测 中 ， 可 以 计算 出 模型 的 预测 精确 度 和 回潮 精确 度 ， 代 码 如 下 : 
> sigs.PR(preds, norm.data[1001:2000, 1]) 
precision recall 
s  0.2838710 0.2514286 


b 0.3333333 0.2264151 
8*b 0.2775665 0.2185629 


上 面 结果 中 ， 预 测 精 确 度 和 回溯 精确 度 的 值 还 较 低 ， 但 是 都 高 于 回归 任务 中 相应 的 值 。 

基于 神经 网 络 的 参考 文献 

Rojas (1996) 的 书 是 基于 神经 网 络 的 一 本 不 错 的 参考 书 。 对 于 更 多 金融 方面 的 读物 ，Zirilli 
(1997) 的 书 是 一 本 很 好 的 和 容易 阅读 的 书 。 题 为 “Artificial Neural Networks Forecasting Times 
Series" (Rogers and Vemuri, 1994) 的 论文 集 是 另外 一 个 好 的 引用 源 和 参考 文献 。Deboeck 
(1994) 书 的 第 一 部 分 专门 提供 了 神经 网 络 应 用 程序 交易 的 几 个 章节 。MecCulloch 和 Pitts (1943) 
提出 了 第 一 个 人 工 神 经 元 模型 ， 这 项 工作 是 由 Ronsenblatt (1958 ) Minsky 和 Papert (1969) 推 
广 的 。 反 向 传播 法 ， 最 常用 的 权重 更 新 方法 ， 虽 然 经 常 归 功 于 Rumelhart 等 (1986 ) ， 但 根据 
Rojas (1996) 的 书 ， 这 个 方法 是 由 Werbos (1974, 1996) 发 明 的 。 

3.4.2.2 支持 向 量 机 

支持 向 量 机 (Support Vector Machine, SVM) ”和 人 工 神 经 网 络 一 样 ， 也 是 一 种 建 模 工具 ， 可 
以 用 于 回归 和 分 类 问题 。 基 于 其 成 功 应 用 到 多 个 领域 和 其 强大 的 理论 背景 ， 支 持 向 量 机 已 经 受 
到 越 来 越 多 不 同 研究 领域 的 关注 。Vapnik (1995, 1998) , Shawe-Taylor 和 Cristianini (2000) 是 
支持 向 量 机 的 两 个 重要 参考 文献 。Smola 和 Scholkopf (2004, 1998) 出 版 了 一 本 极 好 的 支持 向 量 
机 指南 ， 概 述 了 支持 向 量 机 用 于 回归 的 基本 思想 。R 中 有 多 个 添加 包 实 现 了 支持 向 量 机 ， 在 这 些 

添加 包 中 ， 我 们 可 以 参考 由 Karatzoglou 等 (2004) 提供 的 带 有 多 种 功能 的 添加 包 kemlab, 我们 

也 可 以 使 用 由 Dimitriadou 等 (2009) 提供 的 带 有 svm( ) 函数 的 添加 包 e1071, 

支持 向 量 机 的 基本 思想 是 ,将 原始 数据 映射 到 一 个 新 的 高 维 空间 中 ， 在 这 个 新 的 高 维 空间 
中 ， 有 可 能 应 用 线性 模型 来 获得 一 个 超 平面 来 进行 分 离 ， 例 如 在 分 类 任务 中 ， 分 离 问题 中 的 不 同 


© ”可 以 在 网 站 : http://www. kemel-machines. org 上 得 到 该 类 模型 的 大 量 信息 。 
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类 别 。 将 原始 数据 映射 到 这 一 新 的 空间 是 在 所 谓 的 核 函 数 的 帮助 下 进行 的 。 支 持 向 量 机 是 作用 
在 由 核 函 数 所 引入 的 对 称 表示 的 线性 机 。 

在 新 的 对 称 表示 下 进行 超 平面 分 割 ， 这 是 通过 最 大 化 不 同类 别 之 间 个 案 的 分 割 边际 来 进行 
的 。 参 见 图 3-4。 这 是 一 个 优化 问题 ， 经 常用 二 次 规划 来 解决 。 软 边界 方式 允许 将 比例 很 小 的 个 
案 划 分 到 “错误 ”的 类 别 ， 这 些 方式 导致 一 定 的 “损失 ”。 

在 支持 向 量 回归 中 ， 这 个 过 程 很 相似 ， 主 要 区 别 在 于 误差 和 相关 损失 的 计算 。 这 通常 借助 于 
所 谓 的 e odis dbi BM | 上 | .， 该 函数 形式 如 下 : 


.| fO lél<e 
el. - Lu, (3-15) 





图 3-4 支持 操 量 机 边际 最 大 化 


下 面 ， 我 们 将 提供 使 用 R 中 这 类 模型 的 简单 例子 。 我 们 从 使 用 添加 包 e1071 中 的 函数 进行 回 
归 任 务 开始 ， 代 码 如 下 : 


> library(ei071) 

> sv <- svm(Tform, Tdata.train[1:1000, ], gamma = 0.001, cost = 100) 
> s.preds <- predict(sv, Tdata.train[1001:2000, ]) 

^ sigs.svm <- trading.signals(s.preds, 0.1, -0.1) 

> true.sigs «- trading.signals(Tdata.train[1001:2000, "T.ind.GSPC"], 
* 0.1, -0.1) 

> sigs.PR(sigs.svm, true.sigs) 


precision recall 
B8 0.4285714 0.03428571 
b  0.3333333 0.01257862 
a+b 0.4000000 0.02395210 


fEx IT, BEAT PRSE svm( ) ， 除 参数 gamma 和 cost 外 ， 大 部 分 的 参数 我 们 都 采用 

默认 值 。 在 本 节 中 ， 该 函数 使 用 了 一 个 径 向 基 核 函数 : 
K(x,y) = exp(- y x Ix - y^) (3-16) 

HEP y &R—7HBPSE, ELAM RAP, ERARA 0.001, (EAX svm() 中 ， 该 参 
数 的 默认 值 为 1/ncol( data) ) 。 

参数 cost 给 出 违反 边际 所 引 作 的 损失 。 你 可 以 参考 函数 svm 的 帮助 页 面 以 获取 该 参数 和 其 他 
参数 的 细节 。 

我 们 可 以 观察 到 ， 支 持 向 量 机 模型 的 决策 精确 度 值 比 人 工 神经 网 络 好 许多 ， 尽 管 回 湖 精 确 
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度 的 值 很 低 。 
下 一 步 ， 我 们 考虑 分 类 任务 ， 这 次 使 用 R 的 kernlab 添加 包 ， 代 码 如 下 : 


> library(kernlab) 
> data <- cbind(signals = signals, Tdata.train[, -1]) 
> ksv <- ksvm(signals ^ ., data[1:1000, ], C = 10) 


Using automatic sigma estimation (sigest) for RBF or laplace kernel 


> ks.preds «- predict(ksv, data[1001:2000, ]) 
> sigs.PR(ks.preds, data[1001:2000, 1]) 


precision recall 
s  0.1935484 0.2742857 
b  0.2688172 0.1572327 
s*b 0.2140762 0.2185629 


我 们 使 用 kernlab 添加 包 中 的 函数 ksvm( ) ， 其 中 的 参数 C 用 来 指定 违反 约 东 的 不 同 损 失 ， 该 
参数 的 默认 值 为 1。 除 此 之 外 ， 其 他 参数 使 用 默认 值 ， 例 如 ， 在 分 类 时 用 的 默认 参数 是 径 同 基 核 
函数 。 可 以 通过 函数 ksvm( ) 的 帮助 页 面 获 取 更 多 的 细节 。 
| 支持 向 量 机 分 类 的 结果 并 不 如 支持 向 量 机 回归 的 结果 好 。 这 并 不 意味 着 我 们 声明 这 是 用 支 

持 向 量 机 技术 所 能 获得 的 最 好 结果 。 这 些 都 只 是 说 明 如 何在 R 中 使 用 这 些 建 模 技 术 的 简单 例子 。 
| 3.4.2.3 多 元 自 适 应 回归 样 条 

多 元 自 适 应 回归 样 条 (MARS) (Friedman, 1991) 是 自 适 应 回归 模型 (Hastie and Tibshirani, 

1990) 的 一 个 例子 。 一 个 多 元 自 适应 回归 样 条 模型 具有 以 下 一 般 形式 ; 
mars(x) = c, + 2, cB; (x) (3-17) 
其 中 c RAD, BO) 是 基 函 数 。 

基 沙 数 可 以 有 多 种 不 同 的 表现 形式 ， 从 简单 常量 到 描述 两 个 或 多 个 变量 相互 关系 的 阴 数 。 

但 是 ， 最 常见 的 基 唤 数 是 所 谓 的 贸 链 函数 ， 有 如 下 形式 : 
H[-(x,-1)] = max(0,t—x) H| + (x, - t) ] = max(0,x, -1) 
其 中 x%, 是 一 个 预测 变量 ,上 是 该 预测 变量 的 界限 值 。 图 3-5 A HGX PIT PRACT ELT e 








2.0 2.6 3.0 3.5 40 45 6.0 


图 3-5 MARA HEREN EB) I 


在 R 中 已 经 至 少 有 两 个 添加 包 实 现 了 多 元 自 适 应 回归 样 条 模型 。 添 加 包 mda (Leisch et al. , 
2009) fa T PREX mars( ) ， 该 蝴 数 实现 了 多 元 自 庆 应 回归 样 条 方法 。 添 加 包 earth ( Milborrow， 
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2009) 中 的 函数 earth( ) 同样 也 实现 了 多 元 自 适应 回归 样 条 方法 。 从 建 模 函 数 提供 的 基于 公式 的 
接口 来 看 ， 函 数 earth( ) 有 着 能 够 遵循 更 标准 的 R 构架 的 优势 。 同 时 添加 包 earth 还 实现 了 其 他 
添加 包 所 不 具有 的 功能 ， 因 此 我 们 选择 添加 包 earth。 

下 面 是 应 用 函数 earth( ) 进行 回归 的 代码 : 


> library(eartbh) 

> e <- earth(Tform, Tdata.train[1:1000, ]) 

> e.preds <- predict(e, Tdata.train[1001:2000, ]) 

> sigs.e <- trading.signals(e.preds, 0.1, -0.1) 

> true.sigs <- trading.signals(Tdata.train[1001:2000, "T.ind.GSPC"], 
* 0.1, -0.1) 

> sigs.PR(sigs.e, true.sigs) 


precision recall 
8 0.2785714 0.2228571 
b 0.4029851 0.1698113 
a+b 0.3188406 0.1976048 


得 到 的 结果 与 支持 向 量 机 的 回归 结果 相差 不 大 ， 决 策 精 确 度 约 为 30% ， 回 溯 精 确 度 要 更 低 
一 些 。 

多 元 自 适 应 回归 样 条 只 适用 于 回归 问题 ， 所 以 在 分 类 问题 方面 我 们 就 不 再 举例 说 明 。 

关于 多元 自 适 应 回归 样 条 的 参考 文献 

多 元 自 适 应 回归 样 条 可 以 参考 具有 权威 性 的 Friedman (1991) 的 原始 文章 。 这 是 一 篇 很 好 的 
文章 ， 它 提供 了 所 有 关于 推动 多 元 自 适应 回归 样 条 的 发 展 以 及 系统 中 技术 应 用 的 所 有 细节 。 这 
篇 文章 还 包括 了 其 他 科学 家 工作 意见 和 有 趣 的 讨论 。 


3.5 从 预测 到 实践 


这 节 描 述 如 何 应 用 上 节 的 模型 所 得 到 的 预测 信和 号。 给 定 模型 输出 的 一 组 信号 ， 可 有 许多 方 
式 将 它们 运用 于 市 场 的 交易 决策 。 
3.5.1 如 何 应 用 预测 模型 

在 本 案例 中 ， 我 们 假设 在 期 货 市 场 进行 交易 。 期 货 市 场 是 在 合约 基础 上 进行 交易 的 ， BAM 
定 在 未 来 某 个 确定 的 时 间 、 以 未 来 市 场 决 定 的 价格 买 人 或 者 卖 出 商品 。 这 些 合约 的 技术 细节 超 
过 了 本 书 的 范围 。 但 是 ， 从 客观 的 角度 看 ， 这 意味 着 我 们 的 交易 系统 将 可 以 采取 两 种 交易 头寸 ; [130] 
多 头头 寸 〈 也 称 为 多 头 仓位 ) 和 空头 头寸 〈 也 称 为 空头 仓位 ) 。 多 头头 寸 是 指 在 上 上 时刻、 以 价格 
p 买 人 商品 ， 随 后 在 时 刻 上 +x 卖 出 。 当 交易 者 预期 未 来 价格 上 涨 时 ， 这 样 的 头寸 对 交易 者 来 说 是 
有 意义 的 ， 进 行 这 种 交易 使 他 获取 利润 。 做 空头 头寸 时 ， 交 易 者 在 时 刻 上 、 以 价格 了 P 卖 出 证 券 ， 
同时 他 们 有 义务 在 未 来 买 回 同样 的 证 券 。 由 于 可 以 借 人 证 券 的 交易 模式 ， 这 种 空头 头寸 也 是 可 
能 的 《有 关 该 模式 的 细节 ， 请 参阅 其 他 文档 ， 例 如 维基 百科 ) 。 因 为 当 证 券 价 格 下 降 时 ， 他 们 可 
以 在 时 刻 t 后 的 某 个 时 刻 买 人 并 偿还 所 借 证 券 ， 从 而 获 利 。 简 略 地 说 ， 当 认为 价格 会 下 降 时 开 空 
头 仓位 ， 认 为 价格 会 上 涨 时 开 多 头 仓 位 。 

给 出 一 组 交易 信号 ， 可 以 有 许多 方式 在 期 货 市 场 上 应 用 它们 。 下 面 将 描述 我 们 的 模型 实验 
中 将 应 用 并 进行 比较 的 一 些 具 有 可 信 性 的 交易 策略 。 由 于 空间 和 时 间 限 制 ， 这 里 不 可 能 进一步 
探讨 该 重要 问题 。 但 是 ， 读 者 可 以 练习 一 些 其 他 具有 可 信 性 的 策略 ， 并 可 以 开发 和 尝试 其 他 可 能 
的 策略 。 

我 们 应 用 的 第 一 个 交易 策略 机 制 是 这 样 的 。 首先， 将 在 一 天 股票 收盘 时 执行 所 有 的 决定 ， 也 
就 是 在 了 解 当前 所 有 的 日 报价 信息 后 。 假 设 在 某 日 上 收盘 时 ， 我 们 的 模型 提供 证 据 表明 价格 正在 
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[131] 


下 跌 ， 即 预测 出 一 个 很 低 的 了 值 或 者 一 个 卖 出 的 信号 。 如 果 我 们 现在 持 有 多头 头寸 ， 那 么 模型 给 
出 的 信号 将 被 忽视 ， 如 果 我 们 现在 没有 持 有 多 头 仓位 ， 我 们 就 可 以 发 出 卖 空 指 令 ， 建 立 空头 头 
寸 。 当 这 个 指令 在 未 来 某 个 时 候 以 价格 pr 执行 时 ， 我 们 将 立即 跟 上 其 他 两 个 指令 。 第 一 个 指令 
是 一 个 限 价 购买 的 指令 ， 限 制 价格 为 p-p, KE p% 为 目标 收益 率 。 这 类 指令 只 有 当 市 场 价 
格 达 到 或 低 于 限制 价格 时 才 会 执行 。 该 指令 给 出 了 当前 卖 空 捍 作 的 利润 目标 。 我 们 将 会 等 待 10 
天 以 达到 这 个 目标 。 如 果 指 令 在 最 后 期 限 前 没有 执行 ， 我 们 将 以 第 10 天 的 收盘 价 买 人 。 第 二 种 
指令 是 止 损 指 令 ， 价 格 上 限 是 pr + 1% 。 这 种 指令 的 目的 是 限制 我 们 上 面 做 卖 空 操作 的 最 终 损 失 。 
如 果 市 场 价格 到 达 限 定价 格 的 pr+! 鲍 ， 那 么 该 指令 将 执行 ， 因 此 我 们 的 损失 可 以 限制 在 196 , 

如 果 模 型 提供 的 预测 表明 : 价格 将 在 近期 上 涨 ， 表 示 指 标 了 的 预测 值 较 高 或 者 给 出 买 人 信和 号 
时 ， 我 们 将 考虑 开 多 头 仓位 。 只 有 当 我 们 现在 没有 任何 仓位 时 ， 才 会 建 这 类 仓位 。 带 着 这 个 目 
标 ， 我 们 会 在 时 刻 :、 以 价格 p 完成 一 个 买 入 指令 。 和 前 面 一 样 ， 我们 将 立即 跟 上 两 个 新 指令 。 
第 一 个 指令 将 是 卖 出 限制 价 指令 ， 目 标价 格 为 pr +p9% ， 只 有 当 价 格 高 于 或 等 于 pr+p% 时 ， 这 个 
指令 才 执 行 。 这 种 限 价 指令 和 先前 一 样 有 10 天 的 期 限 。 第 二 种 指令 是 卖 出 止 损 上 限制 ， 限 制 价格 
为 pr - l% ， 这 将 再 次 限制 我 们 的 最 终 损失 为 1% 。 

第 一 种 策略 有 些 保 守 ， 因 为 它 在 任 一 时 刻 只 能 有 一 个 仓位 。 此 外 ， 在 经 过 10 天 等 待 目 标 利 
润 后 ， 立 即 平 仓 。 我们 岂 会 考虑 一 个 有 更 多 “风险 ”的 交易 策略 。 后 一 策略 与 前 一 个 类 似 ， 如 
果 有 预测 信和 号 表明 价格 上 升 ， 如 果 有 足够 的 资金 ， 那 么 总 是 开 新 的 多 头 仓 位 。 另 外 ， 我 们 可 以 一 
直 等 待 直到 所 持仓 位 到 达 目 标 利润 或 到 达 最 大 允许 的 损失 。 

我 们 只 考虑 这 两 个 主要 的 交易 策略 ,这 两 个 策略 所 应 用 的 参数 可 以 有 细微 的 变化 (例如 ， 
持 有 期 、 预 期 收益 率 ， 或 在 每 个 仓位 上 投资 的 资金 量 ) 。 如 前 所 述 ， 这 里 所 选择 的 两 个 策略 主要 
以 说 明 为 目的 。 

3.5.2 与 交易 相关 的 评价 准则 

3.3.4 节 阐 述 过 的 模型 性 能 的 衡量 标准 不 能 直接 应 用 到 本 案例 的 应 用 中 。 本 案例 模型 性 能 的 
衡量 需要 与 经 济 效益 相 结合 。 在 本 案例 的 背景 下 ， 像 经 济 效益 和 一 些 金融 工具 所 暴露 的 风险 等 
指标 是 本 案例 的 模型 需要 考虑 的 关键 指标 。 这 些 指标 可 能 就 需要 一 章 的 篇 幅 来 进行 说 明 。R 的 性 
能 分 析 添 加 包 PerformanceAnalytics (Carl and Peterson, 2009) 实现 了 分 析 某 些 交 易 算法 性 能 的 请 
多 金融 指标 ， 例 如 分 析 本 章 交 易 的 一 些 金融 指标 。 我 们 将 使 用 这 个 添加 包 所 提供 的 画 数 收集 我 
们 需要 的 经 济 效益 指标 信息 。 我 们 的 交易 评估 将 关注 方法 的 整体 效果 、 风 险 暴 露 和 根据 模型 提 
示 所 建立 的 每 个 仓位 (头寸 ) 的 平均 结果 。3.7 节 介 绍 的 对 我 们 给 出 的 交易 系统 的 最 终 评 估 中 ， 
我 们 将 使 用 这 个 添加 包 所 提供 的 工具 进行 更 深入 的 交易 系统 性 能 分 析 。 

我 们 将 使 用 以 下 3 个 指标 来 衡量 交易 的 整体 结果 : 1) 初始 资本 与 测试 期 期 末 资 本 之 间 的 净 
差额 (有 时 称 为 利润 /损失 ); 2) 净 差 额 所 代表 的 百分比 收益 率 ; 3) 买 人 并 持 有 策略 的 超额 回 
报 。 这 个 策略 包括 在 测试 期 开始 开 多 头 仓位 和 等 待 到 最 后 平 仑 。 用 购买 并 持 有 的 收益 来 衡量 我 
们 的 交易 策略 和 这 个 简单 策略 之 间 的 差异 。 

对 于 与 风险 相关 的 测量 ， 我 们 将 使 用 夏普 比率 系数 测量 每 单位 风险 的 回报 ， 风 险 由 收益 的 
标准 偏差 来 衡量 。 我 们 也 将 计算 出 跌幅 最 大 值 (最 大 回 撤 ) ， 以 测量 出 模型 的 最 大 连续 累积 损 
失 。 对 于 交易 者 ， 这 是 一 个 重要 的 风险 测量 ， 若 系统 有 一 个 严重 的 最 大 回 撤 ， 就 可 能 导致 没有 资 
金 来 投 入 该 交易 系统 ， 因 为 投资 者 肯定 会 害怕 这 些 连续 亏损 并 撤 出 他 们 的 资金 。 

最 后 ， 根 据 测 试 期 所 持 有 仓位 的 数量 、 每 个 仓位 的 平均 收益 、 和 恒利 仓 位 的 百分比 以 及 其 他 相 
天 性 不 大 的 绩效 指标 来 评估 它们 的 效果 。 

3.5.3 模型 集成 : 仿真 交易 
本 节 将 描述 如 何 实 现 前 面 几 节 通过 模型 给 出 的 信号 来 进行 交易 的 想法 。 本 书 给 出 的 添加 包 
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提供 的 函数 trading. simulator( ) 把 上 面 的 想法 结合 在 一 起 ， 实 现 对 任何 模型 给 出 的 信和 号 进行 交易 
仿真 的 功能 。 这 个 函数 的 主要 参数 是 仿真 期 间 的 市 场 报价 和 同一 时 期 的 模型 信号 。 另 外 两 个 参 
数 是 自 定 义 交 易 策 略 的 函数 及 其 参数 列表 。 最 后 ， 我 们 也 可 以 指定 每 一 笔 奖 易 的 成 本 和 交易 者 
能 够 提供 的 初始 资本 。 模 拟 器 会 在 每 天 收盘 时 调用 用 户 提供 的 交易 策略 函数 ， 而 用 户 交 易 策略 
函数 应 该 返回 它 需 要 模拟 器 执行 的 交易 指令 。 模 拟 器 在 市 场 上 执行 这 些 指令 并 用 多 个 数据 结构 记 
录 下 所 有 的 交易 活动 。 模 拟 的 结果 是 一 个 tradeRecord 类 对 和 象 ， 它 包含 该 次 仿真 的 信息 。 这 个 对 象 可 
以 用 于 获取 经 济 评估 指标 的 蚂 数 或 绘制 交易 活动 图 表 的 函数 ， 这 些 将 在 之 后 的 操作 中 看 到 。 

在 给 出 这 种 类 型 的 仿真 实例 之 前 ， 我 们 需要 提供 用 于 模拟 器 的 交易 策略 函数 的 更 多 细节 。 
应 该 使 用 某 种 协议 来 编写 这 些 辣 数 ， 也 就 是 说 ,它们 应 该 意识 到 模拟 器 将 如 何 调用 它们 ， 同 时 它 
们 如 何 返 回 模 拟 右 所 期 望 的 信息 。 

每 一 个 股票 交易 日 d 收盘 之 后 ,模拟 器 用 四 个 主要 参数 以 及 用 户 提 供 的 任何 其 他 参数 来 调用 
交易 策略 函数 。 这 四 个 参数 是 : 1) 含有 直到 d 天 的 预测 信号 的 一 个 向 量 ; 2) 市 场 报 价 (直到 4d 
X): 3) 当前 持仓 情况 ; 4) 交易 者 当前 可 使 用 的 资金 。 当 前 持仓 情况 是 一 个 矩阵， 该 矩阵 的 行 
数 与 d 天 收盘 时 的 持仓 数 相等 。 该 矩阵 有 4 列 :“pos. type” 为 1 代表 多 头 仓位 ，- 1 代表 空头 仓 
位 ;“N. stocks” 是 该 仓位 中 的 股票 数 ;“ Odate” 是 指 开 仓 的 日 期 (日 期 在 1 ~d Zi); 
“Oprice” 是 开 仓 时 的 价格 。 这 个 矩阵 的 行 名 称 含有 仓位 的 标识 符 (ID) ， 当 我 们 需要 模拟 器 平 仓 
某 个 特定 仓位 时 需要 用 到 该 ID。 

所 有 这 些 模拟 器 提供 的 信息 能 确保 用 户 可 以 定义 一 个 较 大 的 交易 策略 函数 集合 。 用 户 自 定 
义 的 策略 函数 应 该 返回 一 个 含有 交易 指令 集合 的 数据 奏 ， 返 回 的 交易 指令 将 由 模拟 器 执行 。 这 
个 交易 指令 数据 框 应 包括 以 下 信息 (F): “order” 为 1 代表 买 人 指令 ，- 1 代表 卖 出 指令 ; 
"order. type” 为 1 代表 需要 立刻 执行 的 市 场 指令 (实际 上 是 以 次 日 的 开盘 价 执行 )，2 代表 限 价 
指令 ，3 代表 止 损 指令 ;“val” 是 指 开 仓 指令 中 的 交易 股票 数量 ;NA 是 指 平 仓 指令 ， 或 者 限 价 
指令 与 止 损 指令 中 的 目标 价格 ; “action” 的 值 是 “open” 代 表 开 新 仓位 指令 ,或 者 取 值 为 
“close ”代表 平 耸 已 有 仓位 的 指令 ; 最 后 ,“posID ”如 果 取 值 非 空 ， 其 内 容 是 需要 平 仓 的 仓位 ID. 

下 面 是 用 户 定 义 的 交易 策略 的 示例 : 


> policy.1 <- function(signals,market,opened.pos,money, 
+ bet=0.2,hold.time=10, 
exp.prof=0.025, max.loss= 0.05 
) 


d «- NROW(market) # this is the ID of today 
orders €- NULL 

nOs <- NROW(opened.pos) 

# nothing to do! 

if (!nOs &£ signals[d] == 'h') return(orders) 


# First lets check if we can open new positions 
# i) long positions 
if (signals[d] == 'b' kk !nOs) { 
quant <- round(bet*money/market [d,'Close'] ,0) 
if (quant > 0) 
orders <- rbind(orders, 
data. frame (order=c(1,-1,-1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(1*exp.prof), 
market [d,'Close'] *(1-max. loss) 
), 
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函数 policy. 1( ) 实现 了 3.5.1 节 中 所 描述 的 第 一 条 交易 策略 。 该 函数 有 四 个 参数 用 来 调整 
这 个 策略 。 这 四 个 参数 分 别 是 : 参数 bet 指明 我 们 每 次 开 新 仓位 时 所 投资 的 金额 占 当 前 资金 的 百 
分 比 ; 参数 exp. prof 表明 我 们 所 期 望 的 当前 仓位 的 收益 率 ， 当 我 们 执行 限 价 指令 的 时 候 会 用 到 该 
参数 ; 参数 max. loss 表明 平 仓 前 我 们 所 能 承受 的 最 大 损失 ,该 参数 用 于 止 损 指令 ; 参数 
hold. time 表明 为 实现 指定 收益 率 ， 我们 愿意 等 待 的 天 数 。 如 果 等 待 了 hold. time 天 ， 仍 然 没 有 得 


action = c('open','close','close'), 
posID = c(NA,NA,NA) 
J 
) 


# ii) short positions 
} else if (signals[d] == 's' && !nOs) { 


# this is the nr of stocks we already need to buy 
# because of currently opened short positions 
need2buy <- sum(opened. pos [opened.pos[,'pos.type']==-1, 
"N.stocks"]) *market [d,'Close'] 
quant <- round(bet*(money-need2buy)/market [d,'Close'] ,0) 
if (quant > 0) 
orders <- rbind(orders, 
data. frame (order=c(-1,1,1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(1-exp.prof), 
market [d,'Cloge']*(1+max. loss) 
), 
action = c('open','close','close'), 
posID = c(NA,NA,NA) 
) 
) 


# Now lets check if we need to close positions 
# because their holding time is over 
if (nOs) 


for(i in 1:n0s) { 
if (d - opened.pos[i,'Odate'] >= hold.time) 
orders <- rbind(orders, 
data. frame (order=-opened.pos[i,'pos.type'], 
order.type=i, 
val = NA, 
action = 'close!, 
posID = rownames(opened.pos) [i] 
) 
) 
} 


orders 


到 想 要 的 收益 率 ， 该 仓位 将 被 平 仓 。 


注意 ， 每 当 我 们 建立 一 个 新 的 仓位 时 ， 我 们 给 模拟 器 发 送 三 条 指令 : 一 个 当前 市 场 价 开 立新 
的 仓位 指令 ， 一 个 限 价 指令 来 指明 我 们 的 目标 收益 率 和 一 个 止 损 指 令 限 制 我 们 的 损失 。 


同样 ， 以 下 函数 实现 我 们 的 第 二 个 交易 策略 : 
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> policy.2 <- function(signals,market,opened.pos,money, 
+ bet=0.2,exp.prof=0.025, max.loss= 0.05 
) 


d <- NROW(market) # this is the ID of today 
orders <- NULL 


++ + 十 


nOs <- NROW(opened. pos) 
# nothing to do! ; 
if (ln0s && signals[d] == 'h') return(orders 


# First lets check if we can open new positions 
# i) long positions 
if (signals[d] == 'b') ( 
quant <- round(bet*money/market [d,'Close'],0) 
if (quant » 0) 
orders <- rbind(orders, 
data. frame (order=c(1,-1,-1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(itexp.prof), 
market [d,'Close']*(1-max.loss) 
j, 
action = c('open','close','close'), 
posID = c(NA,NA,NA) 
) 
) 


# ii) short positions 
} else if (signals[d] == 's') { 
# this is the money already committed to buy stocks 
# because of currently opened short positions 
need2buy <- sum(opened.pos[opened.pos[,'pos.type']==-1, 
"N.stocks"])*market [d,'Close'] 
quant <~ round(bet*(money-need2buy)/market [d,'Close'] ,0) 
if (quant > 0) 
orders <- rbind(orders, 
data. frame (order=c(-1,1,1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(i-exp.prof), 
market [d,'Close']*(1*max.loss) 
) 3 
action = c('open','close','close'), 
posID = c(NA,NA,NA) 
) 
) 
} 


orders 


} 


这 个 函数 与 之 前 的 第 一 个 交易 策略 函数 非常 相似 。 它 们 的 主要 差异 在 于 : 该 交易 策略 允许 
在 同一 时 间 开 立 多 个 仓位 ， 也 没有 限制 平 耸 的 时 间 。 
定义 了 交易 策略 函数 之 后 ， 我 们 就 准备 好 了 来 尝试 交易 模拟 器 。 为 了 演示 方便 ， 我们 将 选择 
数据 集中 的 一 个 较 小 数据 子 集 ， 建 立 支持 向 量 机 模型 ， 然 后 用 该 模型 来 获取 之 后 一 个 时 间 段 的 
136 
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预测 值 。 在 某 个 交易 策略 下 ， 用 预测 值 来 调用 交易 模拟 器 ， 得 到 利用 支持 向 量 机 的 交易 信和 号 所 获 
得 的 交易 结果 。 代 码 如 下 : 
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# Train and test periods 

start <- 1 

len.tr «- 1000 

len.ts «- 500 

tr <- start: (start*len.tr-1) 

ts <- (start+len.tr): (start+len.tr+len.ts-1) 

# getting the quotes for the testing period 

data (GSPC) 

date <- rownames(Tdata.train[start*len.tr,]) 

market <- GSPC[paste(date,'/',sepz")] [1:1en.ts] 

* learning the model and obtaining its signal predictions 

library (e1071) 

s <- svm(Tforn, Tdata.train[tr,],cost=10,gamma=0.01) 

p <- predict (s,Tdata.train[ts,]) 

sig <- trading.signals(p,0.1,-0.1) 

# now using the simulated trader 

ti <- trading.simulator (market, sig, 
'policy.1',list(exp.profz0.05,betz0.2,hold.times30)) 


请 注意 ， 要 运行 以 上 代码 ,你 必须 提前 创建 用 于 建 模 的 数据 对 象 ， 具体 方法 请 参见 
3.3.3 d, 

在 调用 交易 模拟 器 时 ， 我 们 采用 第 一 种 交易 策略 ， 提 供 了 一 些 不 同 的 值 给 它 的 某 些 参数 。 我 
们 使 用 默认 的 交易 成 本 (5 个 货币 单位 ) 、 默 认 的 初始 资本 (100 万 货币 单位 ) 。 指 令 的 结果 是 一 
个 tradeRecord 类 对 象 。 我 们 可 以 检查 该 返回 对 象 的 内 容 ， 如 下 所 示 : 


> ti 
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Übject of class tradeRecord with slots: 


trading: <xts object with a numeric 50025 matrix» 
positions: «numeric 16 r7 matrix» 

init.cap : ile+06 

trans.cost : 65 

policy.func : policy.1i 

policy.pars : «list with 3 elements» 


> summary(t1) 
=a Summary of a Trading Simulation with 500 days == 


Trading policy function : policy.1 
Policy function parameters: 
exp.prof = 0.05 
bet = 0.2 
hold.time = 30 


Transaction costa : 5 
Initial Equity :  1e*06 
Final Equity : 997211.9 Return: -0.28 X 


Number of trading positions: 16 


Use function "tradingEvaluation()" for further stats on this simulation. 


PAR tradingEvaluation( ) 用 于 获得 在 模拟 交易 期 间 的 一 系列 表示 交易 效果 的 经 济 指标 : 
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> tradingEvaluation(t1) 


NTrades NProf PercProf PL Ret RetOverBH 
16.00 8.00 50.00 -2788.09 -0.28 -7.13 


MaxDD SharpeRatio AvgProf AvgLoss AvgPL MaxProf 
59693.15 0.00 4.97 -4.91 0.03 5.26 
MaxLoss 

-5.00 


tH FY LA 1 A eX plot( ) ， 绘 制 一 个 交易 效果 的 概览 图 : 


> plot(ti, market, theme = "white", name = "SP500") 
该 命令 的 结果 如 图 3-6 所 示 。 
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图 3-6 在 支持 向 量 机 的 预测 信和 号 基础 上 ， 应 用 第 一 个 策略 的 交易 结果 


图 3-6 显示 这 个 交易 的 效果 不 好 ， 收 益 率 为 负 值 。 如 果 采 用 第 二 个 交易 策略 ,交易 结果 会 不 
同 吗 ? 看 看 下 面 的 代码 : 


> t2 <- trading.simulator(market, sig, "policy.2", list(exp.prof = 0.05, 
+ bet = 0.3)) 


> summary (t2) 
== Summary of a Trading Simulation with 500 days == 


Ea 
de 
F 


Trading policy function : policy.2 
Policy function parameters: 
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exp.prof = 0.05 
bet = 0.3 


Transaction costs : 5 

Initial Equity : iet06 

Final Equity : 961552.5 Return: -3.84 X 

Number of trading positions: 29 

Use function "tradingEvaluation()" for further stats on this simulation. 


» tradingEvaluation(t2) 


NTrades NProf PercProf PL Ret RetOverBH 
29.00 14.00 48.28 -38447.49 -3.84 -10.69 
MaxDD SharpeRatio AvgProf AvgLoss AvgPL MaxProf 

156535 .05 -0.02 4.99 -4.84 720.10 5.26 

MaxLoss 

-5.00 


使 用 相同 的 交易 信号 ， 但 应 用 不 同 的 交易 策略 ， 收 益 率 从 -0.27% FERT -2.86% 。 让 我 
们 用 一 个 不 同 的 训练 和 测试 时 间 段 再 做 一 次 上 述 的 实验 : 


> start «- 2000 

> len.tr «- 1000 

> len.ts «- 500 

> tr <- start:(start + len.tr - 1) 

> ts <- (start + len.tr):(start + len.tr + len.ts - 1) 

> s <~ svm(Tform, Tdata.train[tr, ], cost = 10, gamma = 0.01) 
> p <- predict(s, Tdata.train[ts, ]) 

> sig <- trading.signals(p, 0.1, -0.1) 

> t2 <- trading.simulator(market, sig, "policy.2", list(exp.prof = 0.05, 
* bet = 0.3)) 

> summary(t2) 


== Summary of a Trading Simulation with 500 days == 


Trading policy function : policy.2 
Policy function parameters: 


exp.prof = 0.05 
bet = 0.3 


Transaction costs : 5 

Initial Equity : let+06 

Final Equity : 107376.3 Return : -89.26 % 
Number of trading positions: 229 


Use function "tradingEvaluation()" for further stats on this simulation. 


» tradingEvaluation(t2) 


NTrades NProf PercProf PL Ret RetOverBH 
229.00 67 .00 29.26 -892623.73 -89.26 -96.11 
MaxDD SharpeRatio AvgProf AvgLoss AvgPL MaxProf 
959624. 80 -0.08 5.26 -4.50 -1.65 5.26 
MaxLoss 
-5.90 


137 这 次 模拟 交易 应 用 了 相同 的 建 模 技 术 和 相同 的 交易 策略 ， 获 得 了 相当 精 糕 的 结果 。 这 里 得 
|| 到 的 主要 经 验 是 ; 需要 可 靠 的 统计 估计 。 不 要 被 少数 几 次 的 重复 实验 结果 所 恩 弄 ， 即 使 测试 期 区 
140 | 间 为 两 年 也 是 不 够 的 。 我 们 需要 不 同 条 件 下 更 多 的 重复 次 数 ， 以 确保 所 得 到 的 结果 在 统计 上 是 
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可 靠 的 。 对 于 时 间 序 列 模 型 尤其 如 此 ， 这 类 模型 的 不 同时 期 可 能 有 不 同 的 模式 (例如 ,不 同 的 
时 期 有 不 同 的 波动 率 或 不 同 的 趋势 ) 。 这 是 3. 6 节 将 要 讨论 的 问题 。 


3.6 模型 评价 和 选择 


本 节 将 学 习 如 何 获取 模型 交易 效果 评价 指标 的 可 靠 佑 计 ， 这 些 指 标的 估计 值 可 以 使 我 们 合 
理 地 对 多 个 不 同 的 交易 系统 进行 比较 和 选择 。 

3.6.1 蒙特 卡 罗 估 计 

时 间 序 列 问题 ， 例 如 我 们 正在 处 理 的 问题 ， 给 获取 可 靠 的 模型 评价 指标 的 估计 值 带 来 新 的 
挑战 。 这 是 由 于 所 有 的 时 间 序 列 数 据 观 察 值 都 附 有 一 个 时 间 标 签 ， 这 个 时 间 标 签 给 出 了 数据 的 
一 个 内 在 顺序 。 这 个 顺序 需要 特别 注意 ， 以 防止 出 现 不 可 靠 估计 值 的 风险 。 在 第 2 3€, 我 们 用 交 
叉 验 证 的 方法 来 获取 评价 指标 的 可 靠 估计 值 。 这 种 方法 包括 了 一 个 随机 重新 抽样 步骤 来 改变 原 
始 观测 值 的 顺序 。 这 意味 着 交叉 验证 方法 不 适用 于 时 间 序 列 问题 。 采 用 这 种 方法 意味 着 用 于 模 
型 测试 的 观测 值 可 能 比 用 于 建立 模型 的 训练 集 数 据 还 要 时 间 久 远 。 在 现实 中 这 是 不 可 行 的 ， 因 
此 通过 这 个 过 程 获取 的 估计 值 是 不 可 靠 的 并 且 可 能 过 于 乐观 。 因 为 给 定 未 来 的 观测 值 会 更 容易 
地 预测 过 去 的 观测 值 ， 反 之 则 不 然 。 

运用 时 间 序 列 数据 的 估计 过 程 中 应 当 确保 用 于 模型 测试 的 数据 比 建立 模型 的 数据 新 。 这 意 
味 着 不 能 对 观测 值 采用 随机 重新 抽样 的 方法 或 者 其 他 可 能 改变 时 间 序 列 数据 的 时 间 标签 的 过 程 。 
然而 ， 任 何 合理 的 估计 过 程 应 当 包括 一 些 随机 选择 过 程 ， 以 确保 所 获取 估计 值 的 统计 可 靠 性 。 这 
包括 了 在 不 同 条 件 下 多 次 重复 估计 过 程 ， 最 好 包含 随机 选择 过 程 。 给 定 一 个 时 间 序 列 数据 ， 其 时 
间 区 间 从 时 间 :~t+N， 我 们 如 何 实 现 带 有 随机 选择 的 重复 估计 过 程 ? 首先 ， 我 们 需 选 择 用 于 模 
型 估计 的 训练 集 和 测试 集 数 据 。 这 就 要 决定 用 于 模型 估计 过 程 的 训练 集 和 测试 集 数据 的 大 小 。 
这 两 个 数据 集 的 大 小 之 和 应 小 于 NN， 这 样 才能 确保 我 们 可 以 从 已 知 数据 集中 随机 选择 用 于 重复 实 
验 的 不 同 数据 集 。 然 而 ， 如 果 我 们 选择 太 小 的 训练 集 ， 它 就 可 能 严重 影响 模型 的 性 能 。 同 样 ， 太 
小 的 测试 集 可 能 会 导致 模型 不 稳定 。 特 别 是 如 果 我 们 怀疑 时 间 序 列 中 存在 模式 变化 ， 我 们 希望 
在 这 种 模式 变化 情况 下 测试 模型 ， 测 试 集 太 小 将 导致 问题 。 

我 们 的 数据 集 包 括 大 约 30 年 的 每 日 报价 。 这 里 对 所 有 模型 都 设置 测试 集 为 5 年 的 日 报价 数 
据 ， 训 练 集 为 10 年 的 日 报价 数据 。 这 种 设置 确保 了 训练 集 和 测试 集 充分 大 。 而 且 ， 由 于 我 们 有 
30 年 的 日 报价 数据 ， 所 以 这 种 样本 量 的 选择 就 为 测试 过 程 重复 不 同 的 设置 留 下 了 空间 。 

在 实验 方法 上 ,我 们 选择 蒙特 卡 罗 实 验 来 获取 模型 评估 指标 的 可 靠 估 计 。 蒙 特 卡 罗 方法 依 
靠 随机 取样 来 获取 估计 结果 。 我 们 将 用 这 个 取样 过 程 在 30 年 日 报价 数据 中 选择 一 个 由 RR 个 数据 
点 构成 的 集合 。 对 于 集合 中 的 每 一 个 随机 选取 的 时 间 点 r+， 我 们 用 这 个 时 间 点 之 前 10 年 的 日 报价 
数据 来 获取 模型 并 用 这 个 点 之 后 5 年 的 数据 测试 这 些 模 型 。 在 进行 及 次 迭代 之 后 ， 我 们 将 得 到 每 
个 性 能 评估 指标 的 尽 个 估计 值 。 每 一 个 指标 估计 值 都 是 通过 随机 选取 的 15 年 数据 窗口 得 到 的 ， 
前 10 年 用 做 训练 模型 ， 后 5 年 用 做 测试 模型 。 这 种 设置 确保 了 时 间 序 列 数据 的 时 间 排 序 。 重 复 
这 个 过 程 尺 次 ， 将 确保 有 充分 变化 的 训练 和 测试 条 件 ， 这 就 增加 了 估计 值 的 可 靠 性。 而且 ， 如 
果 我 们 在 评估 不 同 模型 时 用 同样 一 组 随机 选取 的 R 个 数据 点 ， 那 么 就 能 够 进行 配对 比较 ， 从 而 
得 到 不 同 模型 的 平均 性 能 之 差 的 统计 置信 度 水 平 。 图 3-7 总 结 了 上 面 描述 的 蒙特 卡 罗 实 验方 法 ， 
注意 对 每 一 个 随机 点 r， 必 须 确保 它 之 前 有 10 年 数据 ， 它 之 后 有 5 年 的 数据 ， 这 就 使 某 些 数据 点 
被 排除 在 随机 选择 的 RR 个 数据 点 之 外 。 
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第 2 章 中 用 于 进行 不 折 交叉 验证 实验 的 函数 experimentalComparison( ) ， 也 可 以 用 于 蒙特 卡 罗 
实验 。 在 3.6.2 节 ， 我 们 将 使 用 这 个 函数 获取 多 个 交易 系统 性 能 评价 指标 的 可 靠 估 计 。 
3.6.2 实验 比较 

本 节 描 述 一 组 蒙特 卡 罗 实 验 ， 它 们 用 于 获取 在 3.3.4 节 和 3.5.2 节 提 到 的 模型 性 能 评价 指标 
的 可 靠 估 计 。 用 于 这 些 实验 的 数据 是 在 3. 3. 3 节 绪 尾部 分 生成 的 数据 集 。 

在 这 些 实验 中 所 考虑 每 一 个 模型 都 会 使 用 三 个 不 同 的 模型 更 新 设置 。 这 些 更 新 方式 已 经 在 
3.4.1 节 描 述 过 ， 它 们 是 应 用 于 所 有 5 年 测试 集 的 单一 模型 、 滑 动 窗口 或 者 增长 窗口 。 本 书 有 两 
个 函数 可 以 使 用 具有 任何 窗口 模式 的 模型 。 函 数 slidingWindow( ) 和 函数 growingWindow() 都 有 
5 个 主要 参数 : 第 一 个 参数 是 leaner 类 对 象 ， 在 第 2 章 我 们 应 用 过 该 类 对 象 ， 它 用 来 保存 模型 的 
所 有 细节 (RARAS); 第 二 个 参数 是 描述 预测 任务 的 公式 ; 第 三 个 参数 和 第 四 个 参数 分 
别 设置 训练 集 和 测试 集 数 据 ; 第 五 个 参数 是 窗口 模式 所 应 用 的 重 训练 步 又 ， 在 这 个 参数 指定 测 
试 个 案 的 数量 之 后 ， 将 对 刚刚 获得 的 模型 所 应 用 的 训练 集 数据 进行 滑动 或 者 增长 ， 然 后 重新 训 
练 模型 。 两 个 函数 都 使 用 相应 的 窗口 模式 返回 测试 集 的 模型 预测 值 。 

下 面 的 代码 创建 了 一 组 函数 ， 它 们 用 于 执行 比较 不 同 交 易 系 统 的 整个 “训练 + 测试 + 评 犀 ” 
过 程 周 期 。 按 照 图 3-7 所 示 的 蒙特 卡 罗 实 验 模式 ， 蒙 特 卡 罗 过 程 将 在 不 同 的 “训练 + 测试 ”时 期 
中 调用 这 些 函 数 。 代 码 如 下 : 


> MC.svmR <- function(form, train, test, b.t = 0.1, s.t = -0.1, 


+ cach { 

+ require (e1071) 

+ t «- svm(form, train, ...) 

+ p <- predict(t, test) 

十 trading.signals(p, b.t, s.t) 

+ } 

> MC.svmC <- function(form, train, test, b.t = 0.1, s.t = -0.1, 
+ bus 

+ require (e1071) 

+ tgtName <- all.vars(form) [1] 

+ train[, tgtName] <- trading.signals(train[, tgtName], 
+ b.t, s.t) 

4 t «- svm(form, train, ...) 

* p <- predict(t, test) 

* factor(p, levels = c("s", "h", "b")) 

+ } 

> MC.nnetR <- function(form, train, test, b.t = 0.1, s.t = -0.1, 
+ afl 

+ require (nnet) 

+ t «- nnet(form, train, ...) 

* p <- predict(t, test) 
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trading.signals(p, b.t, s.t) 


} 
MC.nnetC «- function(form, train, test, b.t = 0.1, s.t = -0.1, 
T d 
require(nnet) 
tgtName «- all.vars(form)[1] 
train[, tgtName] «- trading.signals(train[, tgtName], 
b.t, s.t) 
t <- nnet(form, train, ...) 
p <- predict(t, test, type = "class") 
factor(p, levels = c("s", "h", "b")) 


- 一 


.earth <- function(form, train, test, b.t = 0.1, s.t = -0.1, 
sud X 
require(earth) 
t <~ earth(form, train, ...) 
p <- predict(t, test) 
trading.signals(p, b.t, s.t) 
} 
single <- function(form, train, test, learner, policy.func, 
cast 1 
p <- do.call(paste("MC", learner, sep = "."), list(form, 
train, test, ...)) 
eval.stats(form, train, test, p, policy.func = policy.func) 
} 
slide <- function(form, train, test, learner, relearn.step, 
policy.func, ...) { 
real.learner <- learner(paste("MC", learner, sep = "."), 
pars = list(...)) 
p <- slidingWindowTest(real.learner, form, train, test, 
relearn.step) 
p <- factor(p, levels = 1:3, labels = c("s", "h", "b")) 
eval.stats(form, train, test, p, policy.func = policy.func) 


} 
grow <- function(form, train, test, learner, relearn.step, 
policy.func, ...) { 
real.learner <- learner(paste("MC", learner, sep = "."), 
pars = list(...)) 
p <- growingWindowTest (real.learner, form, train, test, 
relearn. step) 
p <- factor(p, levels = 1:3, labels = c("s", "h", "b")) 
eval.stats(form, train, test, p, policy.func = policy.func) 
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函数 MC. xC) 应 用 所 给 的 公式 和 训练 集 来 获得 不 同 的 模型 ， 并 且 用 已 给 的 测试 集 来 测试 这 
些 模型 ， 然 后 返回 模型 的 预测 值 。 如 果 可 能 ， 我们 会 有 两 个 版 本 的 模型 : 一 个 版 本 是 回归 任务 
(返回 的 模型 名 以 字母 “R” 结 尾 )， 男 一 个 版 本 是 分 类 任务 (返回 的 模型 名 以 “C” 结 尾 )。 注 
意 ， 这 两 个 模型 得 到 的 最 后 预测 信号 的 预 处 理 和 后 处 理 步 骤 是 不 同 的 。 这 些 函数 被 函数 single( ) 、 
函数 slide( ) 和 函数 grow( ) 调用 ， 这 三 个 函数 通过 使 用 参数 learner 所 指定 的 模型 和 相应 的 模型 
更 新 机 制 来 获得 测试 集 的 预测 值 。 在 获取 预测 值 之 后 ， 这 些 函 数 会 调用 下 面 的 郴 数 eval. stats( ) 
来 得 到 想 要 估计 的 模型 评价 指标 统计 量 。 郴 数 eval. stats( ) 的 实现 如 下 : 


^ eval.stats <- function(form,train,test,preds,b.ts0.1,8.t--0.1,...) { 
+  $* Signals evaluation 
+ 'tgtName <- all.vars(form) [1] 
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test[,tgtName] <- trading.signals(test[,tgtName],b.t,s.t) 
st <- sigs.PR(preds,test[,tgtName]) 
dim(st) «- NULL 
names(st) <- paste(rep(c('prec','rec'),each=3), 
c('s' ,'b','sb'),sepz'.') 


# Trading evaluation 

date <- rownames(test) [1] 

market <- GSPC[paste(date,"/",sep="')] [1:length(preds) , ] 
trade.res <- trading.simulator(market,preds,...) 
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c(st,tradingEvaluation(trade.res)) 

+ 了 

函数 eval. stats( ) 用 其 他 两 个 函数 来 收集 信和 号 的 决策 精确 度 、 回 潮 精 确 度 ， 以 及 其 他 几 个 经 
济 评价 指标 。 函 数 sigs. PR( ) 接收 的 参数 是 预测 信和 号 和 真实 信号 ， 它 分 别 计算 卖 出 、 买 入 和 
“走出 + 买 人 ”信号 的 决策 精确 度 和 回 湖 精确 度 。 男 一 个 站 数 是 tradingEvaluation( ) ， 它 用 来 获得 
给 定 交 易 记 录 的 经 济 评价 指标 ， 而 这 个 交易 记录 是 用 明 数 trading. simulator( ) 获取 的 ， 该 项 数 可 
用 来 按照 模型 信号 在 市 场 上 进行 模拟 交易 。 以 上 所 有 这 些 函 数 已 在 3. 5. 3 节 中 充分 介绍 过 。 

在 蒙特 卡 罗 程 序 中 调用 适当 参数 设置 的 蚂 数 single() PRA slide( ) AMAS grow(), ， 可 以 得 
到 我 们 需要 比较 的 模型 。 以 下 介绍 如 何 建立 一 个 循环 程序 ， 在 循环 中 运行 一 系列 的 交易 系统 ， 并 
调用 这 些 函 数 来 获取 这 些 交 易 系 统 的 性 能 估计 。 每 一 个 交易 系统 由 一 些 具有 特定 参数 的 学 习 模 
型 和 交易 策略 构成 。 交 易 策略 将 指示 交易 中 如 何 应 用 模型 的 预测 信和 号。 下 面 我 们 考 虚 三 种 交易 
策略 ， 它 们 是 从 3. 5. 3 节 描 述 的 策略 (policy. 1() 和 policy. 2() ). 衍生 而 来 ， 以 下 函数 实现 这 三 
个 术 生 策略 : 


> poli «- function(signals,market,op,money) 

+  policy.li(signals,market,op,money, 

* bet*»0.2,exp.prof-0.025,max.loss-0.05,hold.time-10) 
> pol2 «- function(signals,market,op,money) 

+ policy.1(signals,market,op,money, 

* betz0.2,exp.prof-0.05,max.loss-0.05,hold.time-20) 
> pol3 «- function(signals,market,op,money) 

+  policy.2(signals,market,op,money, 

* bet-0.5,exp.prof-0.05,max.loss-0.05) 


下 列 代码 运行 蒙特 卡 罗 实 验 。 这 里 建议 你 在 运行 下 列 代码 前 要 慎重 考虑 。 即 使 在 速度 相当 
快 的 计算 机 上 ， 也 需要 几 天 才能 运行 完 下 列 程 序 。 在 本 书 的 网 站 上 ， 我 们 提供 了 运行 这 个 实验 所 
得 到 的 结果 。 所 以 你 不 用 运行 该 实验 也 可 以 重复 3. 6. 3 节 的 结果 分 析 。 


> # The list of learners we will use 

> TODO <- c(svmR','svmC','earth','nnetR','nnetC') 

> # The datasets used in the comparison 

> DSs <- list(dataset(Tform,Tdata.train,'SP500!)) 

> * Monte Carlo (MC) settings used 

> MCsetts <- mcSettings(20, # 20 repetitions of the MC exps 
+ 2540, # " 10 years for training 

4 1270, # ^ 5 years for testing 

* 1234)  # random number generator seed 
> # Variants to try for all learners 

> VARS «- list() 

> VARS$svmR <- list (cost=c(10,150),gamma=c(0.01,0.001), 

+ policy.func=c('poll','pol2','po13')) 

> VARS$svmC <- list (cost=c(10,150),gamma=c(0.01,0.001), 
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policy.funczc('poli','pol2','po13')) 
VARS$earth <- list (nk=c(10,17),degree=c(1,2),thresh=c(0.01,0.001), 
policy.funczc('poli','po12','po13')) 
VARS$nnetR <- list (linout=T,maxit=750,size=c(5,10), 
decay=c(0.001,0.01), 
policy. func«c('pol1','pol2','po13')) 
VARS$nnetC <- list (maxit=750,size=c(5,10),decay=c(0.001,0.01), 
policy. func=c(‘pol1' ,'pol2' ,'po13')) 
# main loop 
for(td in TODO) { 
assign(td, 
experimentalComparison( 
DSs, 
cf 
do.call('variants', 
c(list (‘single', learner=td) ,VARS[[td]], 
varsRootName=paste('single',td,sep='.'))), 
do.call('variants', 
c(list (‘slide', learner=td, 
relearn. step=c(60,120)), 
VARS [[td]], 
varsRootName=paste('slide',td,sep='.'))), 
do.call('variants', 
c(list(grow',learner*td, 
relearn.step=c(60,120)), 
VARS[[td]], 
varsRootName=paste('single',td,sep='.'))) 
), 
MCsetts) 
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* save the results 
save(listetd,file-paste(td,'Rdata',sep-'.')) 


+ 
-- 


MCsetts 对 象 控制 实验 的 总 体 参 数 ， 它 给 出 重复 的 次 数 (20) 、 训 练 集 的 大 小 (2540 X ~ 10 
年 ) 、 测 试 集 的 大 小 (1270 天 ~5 5E). 、 所 用 的 随机 数 生成 器 的 种 子 。 

列表 VARS 给 出 了 我 们 将 要 实验 的 每 个 模型 的 所 有 参数 变化 ， 列 表 中 给 出 参数 的 所 有 可 能 的 
组 合 就 是 所 有 可 能 的 参数 变化 。 在 3 个 不 同 的 模型 更 新 模式 (PHO, PROMS AO) 
中 运行 每 一 个 参数 变化 。 此 外 ， 对 于 后 面 两 个 模型 更 新 模式 ， 我 们 会 尝试 两 个 重新 训练 步骤 : 60 
天 和 120 X, 

对 于 svm 模型 ， 我 们 实验 了 4 个 训练 参数 变化 和 3 个 不 同 的 交易 策略 ， 就 有 12 个 模型 变 体 ; 
对 于 earth 模型 ， 实 验 了 24 个 模型 变 体 ; 对 于 mnet 模型 ， 也 实验 了 12 个 模型 变 体 。 每 一 个 模型 
变 体 将 在 单个 模式 及 4 个 窗口 模式 〈 两 个 策略 和 两 个 不 同 的 重复 训练 步骤 ) 下 运行 。 显 然 ， 这 
将 导致 需要 进行 大 量 的 实验 。 即 ， 一 共有 460 ( =12 +24 +24) 个 svm 模型 变 体 、120 ( =24 +48 
+48) 个 earth 模型 变 体 和 60 个 nnet 模型 变 体 。 它 们 中 的 每 一 个 都 将 对 10 年 的 训练 集 和 5 年 的 
测试 集 重复 执行 20 次 。 这 就 是 为 什么 我 们 说 运行 这 个 实验 需要 花 很 长 时 间 。 然 而 ， 在 描述 这 个 
问题 的 时 候 ， 我 们 提 到 这 里 的 实验 仅仅 是 所 有 解决 方法 中 的 一 个 小 例子 。 其 中 有 太 多 的 “小 ” 
决定 ， 将 导致 我 们 有 其 他 不 同 的 实验 方式 (如 买 人 和 卖 出 的 界限 值 以 及 其 他 学 习 系 统 等 ) 。 这 意 
味 着 在 本 案例 的 应 用 领域 ， 任 何 正 式 的 尝试 都 需要 大 量 的 计算 资源 来 进行 合适 的 模型 选择 ， 显 
然 这 在 本 书 的 讨论 范畴 之 外 。 这 里 的 目的 是 给 读者 提供 适合 的 方法 指导 而 不 是 对 这 里 的 特定 数 
据 找 出 最 好 的 交易 系统 。 
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3.6.3 结果 分 析 

3.6.2 节 提 供 的 代码 生成 了 5 个 数据 文件 ， 这 些 文件 中 的 对 象 含 有 实验 的 5 个 训练 系统 所 有 
模型 变 体 的 实验 结果 。 这 些 数 据 文件 被 命名 为 “svmR. Rdata” 、“svmC. Rdata” 、“earth. Rdata" , 
“nnetR. Rdata” 和 “nnetC. Rdata”。 每 一 个 文件 都 包含 与 文件 相同 名 字 〈 除 文件 扩展 名 外 ) 的 对 
象 。 这 些 对 象 是 compExp 类 对 象 ， 本 书 添 加 包 中 含有 探索 这 些 对 象 所 存储 结果 的 多 种 方法 。 

也 许 你 没有 亲自 运行 这 个 实验 ， 那么 你 可 在 本 书 网 站 上 找到 这 5 个 数据 文件 ， 将 它们 和 下载 到 
计算 机 中 ， 并 运行 以 下 代码 将 这 些 对 象 载 人 R 软件 。 


> load("svmR.Rdata") 
> load("svmC.Rdata") 
> load("earth.Rdata") 
> load("nnetR.Rdata") 
> load("nnetC.Rdata") 


对 于 每 一 个 交易 系统 变 体 ， 我 们 测量 了 多 个 性 能 指标 。 有 些 性 能 指标 用 来 衡量 信和 号 预测 的 
正确 性 ， 男 一 些 指标 用 来 衡量 应 用 这 些 信和 号 进行 交易 时 的 经 济 效果 。 根 据 对 实验 中 得 到 这 些 性 
能 指标 的 综合 考虑 ， 决 定 哪 一 个 模型 是 最 好 的 。 最 终 选 定 的 模型 可 能 取决 于 我 们 最 注重 的 那个 
性 能 指标 。 

尽管 性 能 评价 的 指标 有 多 种 ， 但 是 其 中 的 某 些 指标 更 具有 相关 性 。 在 我 们 的 案例 中 ， 在 衡量 
预测 信和 号 正确 性 的 评价 指标 中 ， 预 测 精 确 度 指标 比 回调 精 确 度 指 标 更 重要 。 实 际 上 ， 预 测 精确 度 
和 预测 信号 相关 ， 而 预测 信号 将 决定 是 否 开 立 新 的 仓位 等 交易 行为 。 低 预测 精确 度 是 因为 预测 
信号 错误 ， 它 意味 着 在 错误 的 时 间 开 立 仓位 。 这 显然 会 导致 极 大 的 损失 。 而 回溯 精确 度 则 没有 这 
种 潜在 的 损失 ， 它 衡量 模型 捕获 交易 机 会 的 能 力 。 如 果 回 湖 精 确 度 取 值 较 低 ， 就 意味 着 机 会 的 铺 
失 ， 但 并 不 意味 着 高 损失 。 因 此 ， 我 们 对 模型 的 “prec. sb” 统 计量 特别 感 兴趣 ， 它 衡量 买 入 信 
号 和 卖 出 信号 的 预测 精确 度 。 

对 交易 效果 衡量 而 言 ， 交 易 系 统 的 回报 很 重要 【实验 中 的 统计 量 “Ret” ) ， 买 人 并 持 有 策略 
的 回报 《实验 中 的 统计 量 “RetOverBH ” ) 也 很 重要 。 盘 利 交 易 所 占 百 分 比 也 同样 重要 ， 显 然 它 
应 该 在 50% (统计 量 “PercProf") 以 上 。 在 衡量 风险 分 析 方 面 ， 这 里 考虑 夏普 比率 值 (“Shap”) 
和 最 大 回 撤 值 (" MaxDD"), 

PAX summary() 可 以 用 于 已 经 载 人 的 compExp 对 象 。 然 而 ， 考 虑 到 很 大 数量 的 模型 变 体 和 
性 能 指标 统计 量 ， 输 出 结果 的 内 容 是 相当 多 的 。 

刃 一 种 方式 是 使 用 本 书 添加 包 提 供 的 隧 数 rankSystems( ) 。 使 用 这 个 图 数 ， 可 以 获得 感 兴趣 
的 评价 指标 的 最 优 取 值 ， 它 指出 最 好 的 模型 以 及 相应 的 评价 指标 值 。 代 码 如 下 : 


> as aaa <- c(prec.sb','Ret','PercProf', 

'MaxDD' ,'SharpeRatio') 
> S atiii <- join(subset(svmR,stats*tgtStats), 
+ subset (svmC, stats=tgtStats), 
+ subset (nnetR, stats=tgtStats) , 
+ subset (nnetC, stats=tgtStats), 
+ subset (earth, stats=tgtStats), 
+ by = 'variants') 
> rankSystems(allSysRes,5,maxssc(T,T,T,F,T)) 


$SP500 
$SP500$prec. sb 
system score 
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1 slide.svmC.v5 
2 slide.svmC.v6 
3 slide.svmC.vi3 
4 glide.svmC.vi4 
5 slide.svmC.v21 


Eb jei jei ji jt 


$5P500$Ret 

system score 
1 single.nnetR.vi2 97.4240 
2 single.svmR.vii 3.4960 
3 slide.nnetR.vi5 2.6230 
4 single. svmC.vi2 0.7875 
5 - single.svmR.v8 0.6115 


$SP500$PercProf 

system score 
1 grow.nnetR.v5 60.4160 
2 grow.nnetR.v6 60.3640 
3 slide.svmR.v3 60.3615 
4 grow.svmR.v3 59.8710 
5 grow.nnetC.vi1 59.8615 


$SP500$MaxDD 

system score 
1 slide.svmC.v5 197.3945 
2 slide.svmC.v6 197.3945 
3 grow.svmC.v5 197.3945 
4  grow.svmC.v6 197.3945 
5 slide.svmC.vi3 399.2800 


$SP500$SharpeRatio 
system score 
i slide.svmC.v5 0.02 
2 slide.svmC.v6 0.02 
3 slide.svmC.vi3 0.02 
4 slide.svmC.vi4 0.02 
5 slide.svmC.v2i 0.02 


函数 subset() 可 以 应 用 于 compExps 对 象 ， 选 择 存储 在 这 些 对 象 中 的 部 分 信息 。 这 时 ， 
我 们 只 选择 估计 出 的 性 能 指标 的 子 集 。 然 后 ， 我 们 使 用 函数 join C). 将 所 有 的 模型 变 体 合 在 
一 起 ， 存 储 在 一 个 compExps 对 象 中 。 这 个 函数 可 以 把 具有 不 同 维 数 的 compExps 对 象 结合 在 
一 起 。 本 案例 中 模型 变 体 的 其 他 实验 条 件 是 一 样 的 ， 因 此 这 样 结合 是 有 意义 的 。 最 后 ， 我 
们 运用 函数 rankSystems( ) 从 我 们 所 有 的 交易 系统 的 性 能 指标 中 选择 出 分 值 最 高 的 5 个。 最 
好 的 性 能 指标 值 随 指标 不 同 而 变化 。 有 时 我 们 需要 最 高 的 指标 值 ， 有 时 却 需要 最 低 的 指标 
值 。 这 可 以 用 函数 rankSystems( ) 中 的 参数 maxs 来 设 定 ， 它 可 以 指定 哪个 指标 需要 最 大 化 
的 取 值 。 

我 们 观察 这 5 个 最 优 性 能 指标 ， 发 现 它们 或 者 采用 svm 算法 ， 或 者 采用 nnet 算法 。 另 一 个 显 
而 易 见 的 模式 是 ， 几 乎 所 有 的 这 些 模型 变 体 都 运用 了 某 个 窗口 机 制 。 这 提供 了 窗口 机 制 优 于 单 
一 模型 的 某 种 证 据 ， 也 可 以 认为 它 确 认 了 这 些 数据 有 模式 变化 。 我 们 也 可 以 观察 到 多 个 显著 的 
(或 可 疑 的 ) 分 数 ， 即 洋人 或 者 卖 出 信号 的 预测 精确 度 。 获 得 100% 的 预测 精确 度 是 很 奇怪 的 。 
仔细 检查 这 些 交 易 系 统 的 结果 ， 它 揭示 得 到 这 人 么 高 的 分 数 ， 是 由 于 在 5 年 测试 期 中 有 极 少 的 
信和 号 。 
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> summary (subset (svmC, 
+ stats=c('Ret','RetOverBH ,'PercProf','NTrades'), 
+ varssc('slide.svmC.vb5','slide.svmC.v6'))) 


== Summary of a Monte Carlo 


Experiment == 


20 repetitions Monte Carlo Simulation using: 


* Datasets :: 
* Learners 


seed = 


1234 
train size = 
test size = 


2540 
1270 


SP500 
Slide.svmC.v5, slide.svmC.v6 


Cases 


cases 


* Summary of Experiment Results: 


-> Datataset:  SP500 
*Learner: slide.svmC.v5 
Ret RetOverBH PercProf NTrades 
avg 0.0250000 -77.10350 5.00000 0.0500000 
std 0.1118034 33.12111 22.36068 0.2236068 
min 0.0000000 -128.01000 0.00000 0.0000000 
max 0.5000000 -33.77000 100.00000 1.0000000 
invalid 0.0000000 0.00000 0.00000 0.0000000 
*Learner: slide.svmC.v6 
Ret RetOverBH  PercProf NTrades 
avg 0.0250000 -77.10350 5.00000 0.0500000 
std 00.1118034  33.1211i 22.36068 0.2236068 
min 00.0000000 -128.01000 0.00000 00.0000000 
max 00.5000000 -33.77000 100.00000 1.0000000 


invalid 0.0000000 0.00000 0.00000 0.0000000 


事实 上 ， 这 些 方 法 在 整个 测试 期 内 至 多 进行 了 一 次 交易 ， 其 平均 收益 为 0.25%， 这 比 简单 
的 买 人 并 持 有 策略 的 收益 低 — 77. 1% ， 这 些 显然 是 无 用 的 模型 。 | 

对 整体 排名 的 最 后 一 个 评论 是 ， 就 最 大 回 撤 而 言 ， 不 能 认为 模型 太 坏 ， 然 而 夏普 比率 值 是 绝 
对 令 人 失望 的 。 

为 了 得 出 对 所 有 这 些 模 型 变 体 的 绪论， 需要 对 这 些 模 型 性 能 统计 指标 增加 一 些 约 东 条 件 。 
我 们 假设 以 下 最 小 值 : 1) 一 个 合理 的 平均 交易 数量 ， 例 如 需 超 过 20; 2) 平均 回报 至 少 大 于 
0.5% (考虑 到 这 些 交 易 系统 平均 回报 的 取 值 较 低 ， 因 此 设 为 该 值 ) ; 3) 盈利 交易 的 百分比 大 于 
40% 。 现 在 检查 一 下 是 否 有 交易 系统 满足 这 些 约束 条 件 。 


> fullResults <- join(svmR, svmC, earth, nnetC, nnetR, by = "variants") 
nt <- statScores(fullResults, "NTrades")[[1]] 

rt <- statScores(fullResults, "Ret") [[1]] 

pp <- statScores(fullResults, "PercProf")[[1]] 

sl <- names(nt)[which(nt > 20)] 

82 <- names(rt)[which(rt > 0.5)] 

s3 «- names(pp) [which(pp > 40)] 

namesBest <- intersect(intersect(si, s2), 83) 


wo oW WV YY OM Vv 


v 


summary (subset (fullResults, 
stats=tgtStats, 
vars-namesBest)) 
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== Summary of a Monte Carlo Experiment == 


20 repetitions Monte Carlo Simulation using: 
seed = 1234 
train size = 2540 cases 
test size = 1270 cases 
* Datasets :: SP500 
* Learners :: single.nnetR.v12, slide.nnetR.v15, grow.nnetR.vi2 


* Summary of Experiment Results: 


-> Datataset: SP500 
*Learner: single.nnetR.vi2 


prec.sb Ret PercProf MaxDD SharpeRatio 
avg 0.12893147 97.4240 45.88600 1595761.4 -0.01300000 
std 0.06766129 650.8639 14.04880 2205913.7 0.03798892 
min 0.02580645 -160.4200 21.50000 257067.4 -0.08000000 
mar 0.28695652 2849.8500 73.08000 10142084.7 0.04000000 
invalid 0.00000000 0.0000 0.00000 0.0 0.00000000 


*Learner: slide.nnetR.vi5 
prec.sb Ret PercProf MaxDD SharpeRatio 
avg 0.14028491 2.62300 54.350500 46786.28 0.01500000 
std 0.05111339 4.93178 8.339434 23526.07 0.03052178 
min 0.03030303 -7.03000 38.890000 18453.94 -0.04000000 
max 0.22047244 9.85000 68.970000 99458.44 0.05000000 
invalid 0.00000000 0.00000 0.000000 0.00 0.00000000 


*Learner: grow.nnetR.v12 
prec.sb Ret PercProf MaxDD SharpeRatio 

avg 0.18774920 0.544500 52.66200 41998.26 0.00600000 

std 0.07964205 4.334151 11.60824 28252.05 0.03408967 

min 0.04411765 -10.760000 22.22000 18144.11 -0.09000000 

max 0.33076923 6.330000 72.73000 121886.17  0.05000000 

invalid 0.00000000 0.000000 0.00000 0.00 20.00000000 

为 了 获取 满足 上 述 约束 条 件 的 交易 系统 变 体 的 名 字 ， 我 们 使 用 了 本 书 添加 包 中 的 statScores( ) 
函数 。 该 阴 数 的 参数 包括 compExp 对 象 以 及 性 能 指标 的 名 字 ， 在 默认 情况 下 ， 该 函数 所 供 所 有 交 
易 系 统 在 这 些 性 能 指标 上 的 平均 值 。 该 函数 的 结果 是 一 个 列表 ， 列 表 的 元 素 个 数 和 实验 中 数据 
集 的 个 数 相同 〈 在 我 们 的 实验 中 是 一 个 单一 数据 集 ) 。 用 户 可 以 在 函数 statScores( ) 的 第 三 个 可 
选 参 数 中 指定 一 个 函数 来 获取 另 一 个 数值 汇总 量 ， 而 不 是 平均 值 。 使 用 这 个 函数 获得 的 结果 ,将 
得 到 满足 每 一 个 约 东 条件 的 交易 系统 的 名 称 。 运 用 函数 intersect( ) ( 它 是 多 个 指标 值 集 合 的 交 
集 ) ， 就 可 以 获得 满足 所 有 约束 条 件 的 交易 系统 的 名 称 。 

正如 我 们 看 到 的 ， 在 我 们 比较 的 240 个 交易 系统 变 体 中 只 有 3 个 交易 系统 满足 这 些 最 小 约 
R. MAXI 个 系统 都 应 用 回归 任务 并 且 都 是 基于 神经 网 络 模型 。 这 3 个 模型 以 不 同 的 方式 来 应 
用 训练 集 数据 。 方 法 “single. nnetR. v12” 没 有 应 用 任何 窗口 机 制 ， 并 且 获 得 了 极 高 的 平均 回报 
值 97. 4% 。 然 而 ， 如 果 我 们 仔细 观察 这 个 交易 系统 的 结果 ， 就 会 发 现在 其 中 的 一 次 迭代 ， 该 系 
统 的 回报 很 低 ， 为 - 160. 40% 。 显 然 ， 该 系统 的 结果 是 极其 不 稳定 的 ， 它 的 标准 差 很 大 ， 为 
650. 86% ， 这 也 验证 了 该 系统 结果 的 不 稳定 性 。 另 外 两 个 系统 的 得 分 相似 。 下 面 代码 运用 函数 
compAnalysis( ) 来 对 结果 进行 显著 性 统计 分 析 。 
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^ compAnalysis (subset (fullResults, 
+ stats=tgtStats, 
+ varsenamesBest)) 


== Statistical Significance Analysis of Comparison Results == 
Baseline Learner:: Bingle.nnetR.vi2  (Learn.1) 
** Evaluation Metric:: prec.sb 


- Dataset: SP500 
Learn. 1 Learn.2 sig.2 Learn.3 sig.3 


AVG 0.12893147 0.14028491 0.18774920 + 
STD 0.06766129 0.05111339 0.07964205 
** Evaluation Metric: : Ret 


- Dataset: SP500 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 


AVG 97.4240 2.62300 - 0.544500 - 
STD 650.8639 4.93178 4,334151 
** Evaluation Metric:: PercProf 


- Dataset: SP500 

Learn.1 Learn.2 sig.2 Learn.3 sig.3 
AVG 45.88600 54.360500 + 52.66200 
STD 14.04880 8.339434 11.60824 


** Evaluation Metric:: MaxDD 


- Dataset: SP500 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 


AVG 1595761 46786.28 -- 41998.26 =s 
STD 2205914 23526.07 28252.05 
** Evaluation Metric:: SharpeRatio 


- Dataset: SP500 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 


AVG -0.01300000 0.01500000 + 0.00600000 
STD 0.03798892 0.03052178 0.03408967 


Legends: 

Learners -> Learn.1 = single.nnetR.vi2 ; Learn.2 = slide.nnetR.vi5 ; 
Learn.3 = grow.nnetR.vi2 ; 

Signif. Codes -> 0 '++' or '--' 0.001 '+' or '-' 0.05 '' 1 


注意 以 上 代码 会 生成 一 些 警 告 ， 那 是 由 于 某 些 系统 不 能 获得 某 些 性 能 指标 的 有 效 值 所 导致 
的 〈 例 如， 没有 买 人 或 者 绞 出 信号 将 导致 无 效 的 决策 精确 度 得 分 )。 

尽管 结果 存在 变化 性 ， 但 以 上 Wilcoxon 检验 告诉 我 们 ， 交 易 系 统 “single. nnetR. v2” 的 平 
均 回 报 以 95 免 的 置信 和 度 大 于 其 他 交易 系统 。 然 而 ， 就 其 他 性 能 指标 而 言 ， 这 个 系统 明显 比 其 他 
系统 差 。 
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通过 绘制 compExp 对 象 ， 可 以 较 好 地 了 解 这 些 性 能 指标 在 20 次 重复 实验 中 的 分 布 情况 。 代 


码 如 下 : 
> plot (subset (fullResults, 
+ stats=c('Ret','PercProf' ,'MaxDD'), 
+ vars=namesBest) ) 


以 上 代码 的 结果 如 图 3-8 所 示 。 


slide.nnetR.v15 
gingla.nnetR.v12 i. 


grow.nnetRi.v12 





MaxDD 
图 3-8 最 好 的 3 个 交易 系统 20 次 实验 的 性 能 指标 值 


两 个 应 用 窗口 机 制 的 交易 系统 的 性 能 指标 值 相似 ， 这 使 得 对 它们 的 区 分 比较 困难 。 相 反 ， 
“single. nnetR. v12” 的 结果 却 明 显 和 上 面 两 个 系统 不 一 样 。 我 们 可 以 发 现 ， 它 之 所 以 能 有 和 较 高 的 
平均 回报 ,原因 是 其 中 的 一 个 蒙特 卡 罗 实 验 有 明显 异常 的 回报 值 (大 约 为 2800% ) 。 这 个 系统 的 
其 他 指标 的 估计 值 看 起 来 要 明显 比 另外 两 个 系统 差 。 为 了 满足 我 们 的 好 奇 ， 可 以 运用 函数 
getVariant() 检查 这 个 特定 交易 系统 的 设置 情况 ， 代 码 如 下 : 

> getVariant("single.nnetR.vi12", nnetR) 


Learner:: "single" 


Parameter values 
learner =  "nnetR" 
linout = TRUE 
trace = FALSE 
maxit = 750 
size = 10 
decay = 0.01 
policy.func = "pol3" 
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153 从 上 面 的 输出 结果 可 知 ， 该 系统 应 用 了 交易 策略 “pol3”， 使 用 了 含有 10 个 隐藏 层 且 学 习 的 

n 衰变 率 为 0. 01 的 神经 网 络 模型 。 | m s | 

] 总 之 ， 根 据 上 面 的 分 析 结 果 ， 如 果 需 要 从 上 面 考虑 过 的 模型 中 选择 一 个 ， 由 于 系统 
"single. nnetR. v12” 的 不 稳定 性 ， 我 们 可 以 不 考虑 这 个 交易 系统 。 然 而 ,在 3.7 节 中 ， 我 们 用 剩余 
的 最 后 9 年 的 数据 来 测试 本 节 中 得 到 这 三 个 最 好 的 交易 系统 ， 然 后 对 最 好 的 系统 进行 最 后 的 评估 。 


3.7 交易 系统 


本 节 描 述 在 最 后 评估 阶段 获得 的 “最 佳 模型 ”的 结果 ， 这 一 部 分 也 是 模型 比较 和 选择 阶段 
的 任务 之 一 。 最 后 评估 时 期 有 9 年 的 报价 数据 ， 我 们 将 在 这 个 时 期 使 用 模拟 器 ， 应 用 5 个 选 定 的 
交易 系统 进行 交易 。 
3.7.1 评估 最 终 测试 数据 

为 了 把 任何 一 个 选 定 的 交易 系统 应 用 于 最 后 评估 期 ， 我 们 需要 之 前 紧邻 评估 期 10 年 的 报价 
数据 。 通 过 这 10 年 的 报价 数据 ， 我 们 构建 模型 ， 然 后 应 用 该 模型 预测 9 年 最 终 评 估 期 的 交易 信 
号 。 在 应 用 窗口 模型 的 系统 中 ,可 能 有 多 个 模型 介 作 这些 预测 。 

下 面 的 代码 将 获取 这 些 系统 在 9 年 测试 期 数据 上 的 性 能 评估 指标 。 

> data «- tail(Tdata.train, 2540) 


» results «- list() 
> for (name in namesBest) { 


* sys <- getVariant(name, fullResults) 
* results[[name]] «- runLearner(sys, Tform, data, Tdata.eval) 
+} 


> results <- t(as.data.frame(results)) 

我 们 对 3 个 最 优 模型 进行 循环 ， 用 最 初 的 训练 集 数 据 (10 年 ) 和 作为 测试 集 的 评估 期 数据 
来 调用 这 些 模 型 。 这 些 调 用 需要 应 用 到 之 前 定义 的 图 数 single( ). ER XC slide( ) HIER AX grow ) 。 
之 前 我 们 已 经 看 到 ， 这 些 函 数 的 结果 是 函数 eval. stats() 所 给 出 的 一 系列 性 能 评价 指标 。 在 循环 
结束 后 ， 我 们 把 得 到 的 结果 列表 转变 成 一 个 更 方便 的 表格 格式 。 

下 面 我 们 检查 一 些 主要 的 性 能 指标 值 : 

> results[, c("Ret", "RetOverBH", "MaxDD", "SharpeRatio", "NTrades", 


十 "PercProf")] 

Ret RetÜverBH MaxDD SharpeRatio NTrades PercProf 
Bingle.nnetR.vi12 -91.13 -61.26 1256121.55 -0.03 759 44.66 
Blide.nnetR.vi5 -6.16 23.71 107188.96 -0.01 132 48.48 
grow.nnetR.v12 1.47 31.34 84881.25 0.00 89 53.93 


从 结果 中 可 以 确定 ， 在 9 年 期 间 ，3 个 交易 系统 中 只 有 其 中 一 个 获得 了 正 的 回报 值 ， 其 他 系 
统 则 都 是 损失 的 。 在 这 3 个 系统 中 ，“ single. nnetR. v12” 系 统 有 很 低 的 回报 率 ，-91.13%， 这 
也 确认 了 该 系统 的 不 稳定 性 。“ grow. nnetR. v12” 方 法 看 起 来 明显 较 好 ， 它 不 仅 有 正 的 回报 值 ， 
更 有 一 个 较 小 的 最 太 回 撤 值 ， 其 一 利 的 交易 百分比 在 5096 以 上 。 但是， 在 这 个 测试 期 ， 除 
“single. nnetR. v12” 系统 外 ， 其 他 两 个 系统 明显 好 于 简单 的 买 人 并 持 有 的 市 场 策略 ， 它 们 超出 买 
人 并 持 有 策略 的 比例 分 别 为 23.7 和 和 31.4% 。 

最 优 模型 具有 以 下 特点 : 

> getVariant ("grow.nnetR.vi2", fullResults) 

Learner:: "grow" 


Parameter values 
learner =  "nnetR" 
relearn.step = 120 
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linout = TRUE 

trace = FALSE 

marit = 750 

size = 10 

decay = 0.001 
policy.func = "pol2" 


Fili fet Dor AD ASCE ARAM E BE BRA BOT. A ET RAN TOT, REN 
要 得 到 该 最 优 交易 系统 在 评估 期 的 交易 记录 。 函 数 grow( ) 不 能 给 出 这 些 记 录 ， 所 以 我 们 要 通过 


其 他 方法 : 
> model <- learner("MC.nnetR", list(maxit = 750, linout = T, 
* trace = F, size = 10, decay = 0.0012) 
> preds <- growingWindowTest (model, Tform, data, Tdata.eval, 
* relearn.step - 120) 
> signals <- factor(preds, levels = 1:3, labels = c("s", "h", 
* "b")) 
> date <- rownames(Tdata.eval) [1] 
> market <- GSPC[paste(date, "/", sep = "")][1:length(signals), 
+ 了 
> trade.res <- trading.simulator(market, signals, policy.func = "pol2") 


图 3-9 绘制 了 这 个 最 优 交 易 系 统 的 交易 记录 ， 给 制 该 图 的 代码 如 下 : 


> plot(trade.res, market, theme = "white", name = "SP500 - final test") 
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图 3-9 ”交易 系统 “grow. nnetR. v12” 在 最 后 评估 期 的 交易 结果 
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通过 分 析 图 3-9 可 以 看 出 ， 该 系统 在 很 长 时 间 内 几乎 没有 交易 活动 ， 即 在 2003 年 中 期 到 
2007 年 中 期 几乎 没有 交易 行为 。 令 人 相当 惊讶 的 是 ， 在 这 一 段 时 期 ， 市 场 是 显著 盘 利 的 。 它 在 
某 种 程度 上 说 明 ， 尽 管 观察 到 该 系统 的 整体 效果 较 好 ， 但 是 它 设 有 表现 出 它 应 该 具有 的 性 能 。 另 
外 还 注意 到 ， 在 2000 一 2003 年 的 市 场 整体 下 降 期 间 ， 以 及 在 2007—2009 年 的 金融 危机 中 ， 该 交 
易 系统 表现 得 相当 好 。 

性 能 分 析 添 加 包 PerformanceAnalytics 提供 了 分 析 任 何 交易 系统 性 能 的 大 量 工具 。 为 更 好 地 理 
解 交 易 系 统 的 性 能 ， 下 面 我 们 提供 这 些 工 具 的 一 个 概览 。 该 添加 包 的 工具 可 以 分 析 和 评 佑 交易 
策略 的 回报 。 可 以 用 如 下 代码 得 到 策略 的 回报 : 

> library(PerformanceAnalytics) 

> rets <- Return.calculate(trade.resOtrading$Equity) 

IER, Kf Retum. calculate( ) 计算 的 不 是 我 们 之 前 一 直 应 用 的 收益 百分比 ， 它 计算 出 的 
值 乘 以 因子 100 将 等 于 我 们 之 前 应 用 的 收益 百分比 。 

图 3-10 显示 策略 在 所 有 测试 阶段 的 累积 收益 率 。 通 过 运行 下 面 的 代码 能 够 得 到 图 3-10: 


> chart.CumReturns(rets, main = "Cumulative returns of the strategy", 
* ylab = "returns") 
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图 3-10 系统 “grow. nnetR. v12” 在 最 终 评估 期 的 累积 收益 率 


对 于 大 多 数 的 时 期 ， 这 个 系统 的 收益 为 正 值 。 在 2008 年 中 期 ， 系 统 收益 达到 最 大 值 10% 。 

通常 计算 年 收益 率 ， 甚 至 月 收益 率 也 是 很 有 用 的 。 添 加 包 PerformanceAnalyties 也 提供 了 一 些 
工具 来 进行 这 种 分 析 ， 即 函数 yearlyReturn( ) : 

> yearlyReturn(trade.resOtrading$Equity) 


yearly.returns 


2000-12-29 0.028890251 
2001-12-31 -0.005992597 
2002-12-31 0.001692791 
2003-12-31 0.013515207 
2004-12-31 0.002289826 
2005-12-30 0.001798355 
2006-12-29 0.000000000 
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2007-12-31 0.007843569 
2008-12-31 0.005444369 
2009-08-31 . -0.014785914 


3-11 给 出 了 以 上 年 收益 信息 的 图 形 ， 从 中 可 以 观察 到 只 有 2 年 的 收益 为 负 值 。 


> plot (100*yearlyReturn (trade.res@trading$Equity), 
+ main='Yearly percentage returns of the trading systen!) 
> abline (h=0, 1ty=2) 


eG 3X Table. CalendarRetums( ) 给 出 了 更 详细 的 月 收益 百分比 (其 中 最 后 一 栏 是 该 年 的 总 计 ): 


> table.CalendarReturns(rets) 


Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Equity 
2000 -0.5 0.3 0.1 0.2 00.20.2 0.0 0.0 0.40.4 -0.2 1.0 
2001 20.0 -0.3 0.2 -0.1 (0 0.00.0 0.0 0.4 0.00.0 0.0 0.3 
2002 0.0 -0.1 0.0 -0.2 0 0.00.2 0.0 -0.3 -0.1 0.0 0.0 -0.5 
2003 0.0 -0.1 0.0 0.0 00.00.0 0.0 0.0 0.00.0 0.0  -0.1 
2004 0.1 0.0 0.0 0.0 00.00.0 0.0 0.0 0.00.0 0.0 0.0 
2005 0.0 0.0 0.0 -0.2 0 0.00.0 0.0 0.0 0.00.0 0.0 -0.2 
2006 0.0 0.0 0.0 0.0 00.00.0 0.0 0.0 0.00.0 0.0 NA 
2007 0.0 0.0 0.0 0.2 00.00.0 -0.2 0.0 -0.2 0.2 0.1 0.0 
2008 -0.3 0.5 0.1 0.1 0 0.00.3 0.0 0.9 0.30.2 0.3 2.3 
2009 -0.5 0.0 -0.2 0.0 00.00.0 0.0 NA WA N NA -0.6 
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图 3-11 “grow. nnetR. v12” 系 统 的 年 收益 信息 


上 甫 清楚 地 显示 出 系统 在 很 长 一 段 时 间 内 没有 交易 ， 许 多 收益 值 为 0。 

最 后 ， 我 们 演示 性 能 分 析 添 加 包 PerformanceAnalytics 提供 的 风险 分 析 工 具 。 这 里 我 们 用 函数 
table. DownsideRisk( ) 来 获取 交易 策略 的 风险 分 析 信 息 : 

> table.DownsideRisk(rets) 


Equity 
Semi Deviation 0.0017 
Gain Deviation 0.0022 
Loss Deviation 0.0024 


Downside Deviation (MAR=210%) 0.0086 
Downside Deviation (Rf»0X) 0.0034 
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Downside Deviation (0%) 0.0034 
Maximum Drawdown -0.0822 
Historical VaR (95%) -0.0036 
Historical ES (95%) -0.0056 
Modified VaR (95%) -0.0032 
Modified ES (95%) -0.0051 


该 函数 给 出 了 多 个 风险 指标 信息 ， 其 中 有 百分比 最 大 回 撤 和 半 偏 差 。 半 偏差 目前 被 认为 是 
一 个 好 于 常用 的 夏普 比率 的 风险 度量 指标 。 更 多 关于 这 些 统计 指标 的 信息 可 以 参阅 性 能 分 析 添 
.加 包 PerformanceAnalytics 的 帮助 文档 。 

总 的 来 说 ， 前 面 所 做 的 分 析 表 明 ， 交 易 系 统 “grow. nnetR. v12” 在 9 年 测试 期 间 在 较 大 的 风 
险 下 有 很 小 的 收益 。 尽 管 该 交易 系统 的 效果 明显 好 于 买 人 并 持 有 策略 ， 这 个 系统 还 不 能 用 来 管 
理 投资 。 但 是 ， 我 们 必须 说 ， 这 个 结果 是 预料 之 中 的 。 本 章 的 案例 是 一 个 相当 难 的 问题 ， 因 为 有 
太 多 的 可 能 性 、 太 多 的 变 体 ， 其 中 的 一 些 变 体 已 经 在 本 章 演示 过 。 本 章 演 示 的 是 所 有 可 能 性 中 的 
一 小 部 分 ， 如 果 从 这 一 小 部 分 就 能 得 到 一 个 非常 成 功 的 交易 系统 ， 那 将 是 很 邻 人 吃惊 的 = 。 这 不 
是 本 案例 研究 的 目的 。 这 里 的 目标 是 提供 给 读者 可 行 的 方法 ， 而 不 是 使 用 这 些 方法 来 进行 深度 
的 研究 而 找到 最 好 的 交易 系统 。 

3.7.2 在 线 交 易 系 统 

假设 我 们 对 得 到 的 这 个 交易 系统 很 满意 。 我 们 如 何在 实际 的 市 场 交易 中 实时 应 用 该 系统 呢 ? 
本 节 将 简略 演示 一 个 具有 这 种 实时 功能 的 系统 。 

这 个 系统 的 机 制 如 下 。 在 每 天 收盘 之 后 ， 将 自动 调用 该 系统 。 该 系统 就 按照 如 下 步骤 操作 
1) 获得 每 天 最 新 的 可 利用 数据 ; 2) 进行 它 所 需要 的 建 模 步骤 ; 3) 产生 系统 调用 的 结果 一 一 即 
生成 一 系列 的 指令 。 

假设 我 们 将 要 开发 的 系统 代码 保存 在 文件 “trader. R” 中 。 每 天 收盘 后 调用 这 个 函数 的 方法 
由 操作 系统 决定 。 在 基于 UNIX 的 系统 中 ,通常 有 一 个 名 为 “crontab” 的 表 ， 你 可 以 把 要 求 操作 
系统 规则 性 运行 的 程序 加 入 到 这 个 表 中 。 可 以 在 操作 系统 的 命令 行 输入 下 列 命 令 来 编辑 这 个 表 : 

shell» crontab -e 

这 个 表格 中 条 目的 语法 相当 简单 ， 它 由 一 组 描述 周期 和 需要 运行 俞 令 的 字段 构成 。 在 下 面 
的 例子 中 ， 它 指示 系统 在 每 个 工作 日 的 下 午 7 点 运行 程序 “trader. R” ， 具 体 代 码 如 下 ; 

0 19 * * 1-5 /usr/bin/R --vanilla --quiet < /home/xpto/trader.R 


开始 两 项 分 别 代表 分 钟 和 小 时 。 第 三 项 和 第 四 项 分 别 代表 所 在 月 份 的 哪 一 天 、 月 份 ， 而 星 号 
(“=”) 意味 着 对 该 域 的 所 有 情况 都 运行 本 程序 。 第 五 项 代表 星期 几 ，1 代表 星期 一 , 用 “-” 
来 表明 日 期 区 间 。 最 后 一 项 是 需要 运行 的 程序 。 

程序 “trader R^ 实现 的 一 般 算 法 如 下 : 

- 读 入 当前 交易 系统 的 状态 。 

- 读 入 所 有 可 以 获得 的 最 新 数据 。 

- 检查 是 否 需 要 重新 训练 模型 。 

- 获得 今天 的 预测 信号 。 

~ 用 该 预测 信号 来 调用 策略 函数 ， 并 获得 交易 指令 。 

- 输出 今天 的 交易 指令 。 

交易 系统 的 当前 状态 是 一 个 数据 结构 ， 它 存储 交易 系统 在 日 常 运行 中 要 求 记忆 的 信息 。 在 


马 ”如 果 我 们 公开 这 样 一 个 相当 成 功 的 系统 也 是 同样 令 人 吃惊 的 1 
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我 们 的 案例 中 ， 它 应 该 包括 目前 的 NNET 模型 、 用 来 得 到 该 模型 的 参数 、 用 来 获取 模型 的 训练 数 
据 和 相关 的 模型 规范 、 模 型 的 “年 龄 ”( 它 对 于 何 时 需要 重新 训练 模型 很 重要 ) 、 到 今天 为 止 系 [162] 
统 的 交易 记录 信息 和 现在 的 持仓 头寸 。 理 想 的 情况 下 ， 这 些 信息 应 该 在 一 个 数据 库 中 ， 然 后 交易 
系统 应 用 R 的 数据 库 界面 来 访问 这 些 信 息 (参见 3.2.4 节 )。 注 意 ， 有 关 持 有 头寸 的 信息 需要 根 
据 交易 系统 外 部 的 信息 来 更 新 ， 因 为 决定 开 仓 和 平 仓 的 时 机 是 市 场 。 而 我 们 的 交易 系统 则 相反 ， 
它 假 设 所 有 的 交易 在 下 一 天 的 开始 完成 。 

如 果 我 们 设置 好 数据 模型 ， 那 么 获取 新 的 数据 就 很 容易 。 在 3. 3.2 节 中 提 到 ， 可 以 用 函数 
getModelData( ) 获取 最 近 的 报价 ， 从 而 更 新 数据 集 。 

模型 参数 relearn. step 和 模型 记忆 的 所 有 其 他 参数 一 样 ， 它 设置 何 时 需要 重新 训练 模型 。 如 
果 模 型 的 “年 龄 ”大 于 参数 releam. step 的 值 ， 那 么 该 模型 需要 重新 训练 。 如 果 模 型 需要 重新 训 
练 ， 那 么 我 们 应 该 用 当前 窗口 的 数据 调用 函数 MC. nnetR( )， 从 而 获得 新 的 模型 。 由 于 我 们 的 最 
佳 交易 系统 使 用 的 是 增长 窗口 模式 ， 所 以 训练 集 数据 不 断 增 长 。 如 果 它 变 得 太 大 而 超出 计算 机 
的 内 存 ， 这 可 能 就 成 为 一 个 问题 。 如 果 这 种 情况 发 生 ， 可 以 考虑 丢弃 太 旧 的 训练 集 数 据 ， 从 而 修 
前 训练 集 数据 使 得 它 的 大 小 可 以 被 计算 机 接受 。 

最 后 ， 我 们 必须 得 到 今天 的 变易 信号 预测 。 这 意味 着 需要 用 当前 的 预测 模型 调用 函数 predict ( ) 
以 获得 训练 集 最 后 一 行 的 预测 值 ， 即 今天 的 预测 值 。 有 了 这 个 预测 值 ， 就 可 以 调用 具有 适当 参数 
的 交易 策略 ， 从 而 得 到 今天 的 交易 指令 集合 。 这 就 是 最 终 的 程序 结果 。 

上 面 的 大 概 轮廓 给 你 提供 了 实现 一 个 实时 交易 系统 的 足够 信息 。 


3.8 小 结 


本 章 的 主要 目的 是 向 读者 介绍 一 个 更 加 实用 的 数据 挖掘 案例 。 本 章 描述 的 案例 具有 多 个 挑 
战 性 : 1) 处 理 时 间 序 列 数据 ; 2) 处 理 可 能 具有 模式 变化 的 非常 动态 的 系统 ; 3) 从 预测 模型 转 
到 应 用 领域 的 具体 行动 。 

从 方法 术语 的 角度 ， 本 章 介绍 了 下 列 新 的 主题 : 

e 时 间 序 列 建 模 。 

e 处 理 带 有 窗口 机 制 的 模式 变化 。 

e 人 工 神经 网 络 。 

e 支持 向 量 机 。 163 | 

e 多 元 自 适应 回归 样 条 。 

e 用 蒙特 卡 罗 方 法 来 评估 时 间 序 列 模型 。 

e 几 个 预测 稀有 事件 或 者 金融 交易 系统 性 能 的 新 的 评价 指标 。 

从 学 习 RAE, RNAS: 

e 如 何 处 理 时 间 序 列 。 

e 如 何 从 不 同 的 来 源 读 人 数据 ， 例 如 数据 库 。 

e 如 何 获得 多 种 新 的 模型 ( 支持 向 量 机 、 神 经 网 络 、 儿 元 自 适应 回归 样 条 ) 。 

e 如 何 应 用 多 个 用 于 金融 模型 的 R 添加 包 。 164 | 
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数据 挖掘 的 一 个 常见 问题 是 侦 测 一 个 现象 中 的 特殊 观测 值 ， 第 三 个 案例 就 是 这 种 问题 的 一 
个 实际 案例 。 也 就 是 说 ， 找 到 罕见 的 和 特殊 的 观测 值 。 这 类 应 用 的 动因 是 某 些 公司 的 销售 员 所 报 
告 的 一 系列 产品 的 交易 情况 。 目 的 是 找到 “奇怪 的 ”交易 记录 报告 ， 它 可 能 指出 某 些 销售 员 涉 
嫌 其 诈 。 数 据 挖 掘 的 结果 有 助 于 公司 的 事后 检查 活动 。 由 于 公司 分 配给 事后 检查 工作 的 资源 有 
限 ， 所 以 希望 数据 挖掘 过 程 能 提供 某 种 欺诈 概率 排序 作为 输出 结果 。 这 些 排序 可 以 使 公司 以 最 
佳 方式 来 利用 其 事后 检查 资源 。 这 种 总 资源 有 限 的 检查 活动 在 很 多 领域 有 广泛 应 用 ， 如 信用 卡 
交易 、 税 务 申报 检验 等 。 本 章 讨论 多 个 新 的 数据 挖 据 主 题 ，1) 离 群 值 或 异常 值 检验 ; 2) RA 
分 析 ; 3) 半 监 督 预 测 模型 。 


4.1 问题 描述 与 目标 


考虑 到 在 经 济 和 社会 领域 中 经 和 党 存在 欺诈 交易 等 非法 活动 ， 因 此 欺诈 检验 是 数据 挖掘 技术 
的 一 个 重要 应 用 领域 。 从 数据 分 析 的 角度 ， 欺 诈 行为 通常 与 异常 的 观测 值 相关 联 ， 因 为 这 些 欺诈 
行为 是 偏离 常规 的 。 在 多 个 数据 分 析 领 域 ， 这 些 偏离 常规 的 行为 经 常 称 为 离 群 值 。 事 实 上 ， 离 群 
值 的 标准 定义 是 “一 个 观测 值 与 其 他 观测 值 偏 离 太 多 而 引起 猜疑 ， 认 为 它 产生 于 不 同 的 机 制 ” 
(Hawkins, 1980), 
本 案例 使 用 的 数据 是 某 公司 的 销售 员 所 报告 的 交易 数据 。 这 些 销 售 员 负责 销售 该 公司 的 产 
品 并 定期 报告 销售 情况 。 我 们 得 到 的 数据 是 一 个 较 短 时 期 内 的 销售 数据 。 销 售 员 可 按照 自己 的 
策略 和 市 场 情 况 来 自由 设置 销售 价格 。 每 月 未 ， 他 们 向 公司 报告 销售 情况 。 数 据 挖 握 应 用 的 目的 
是 根据 公司 过 去 发 现 的 交易 报告 中 的 错误 和 欺诈 企图 ， 帮 助 公司 完成 核实 这 些 销 售 报告 真实 性 
[165] 的 工作 。 我 们 提供 一 份 欺 诈 率 排名 的 报告 ， 这 个 欺诈 率 排名 将 允许 公司 把 有 限 的 检验 资源 分 配 
给 系统 所 提示 的 更 “可 疑 ” 的 那些 报告 。 


4.2 可 用 的 数据 


我 们 所 用 的 数据 来 自 一 个 未 公开 的 渠道 并 被 匿名 。 数 据 共计 401 146 行 ， 每 一 行 包括 来 自 销 
售 员 报 告 的 信息 。 这 些 信息 包括 销售 员 的 有 D 号 、 产 品 编号 、 销 售 员 所 报告 的 销售 数量 和 总 价值 。 
该 公司 已 经 对 这 些 数据 进行 过 一 些 分 析 ， 分 析 的 结果 显示 在 最 后 一 列 ， 它 们 是 公司 对 交易 进行 
检查 的 结果 。 总 之 ,我 们 应 用 的 数据 集 包 括 以 下 各 列 : 

e ID: 说 明 销 售 员 ID 的 一 个 因子 变量 。 

e Prod; 说 明 销 售 产品 ID 号 的 一 个 因子 变量 。 

© Quant; 报告 该 产品 销售 的 数量 。 

e Val; 报告 销售 记录 的 总 价值 。 

e Insp: 有 3 个 可 能 值 的 因子 变量 一 一 ok 表示 公司 检查 了 该 交易 并 认为 该 交易 有 效 ; fraud 

表示 发 现 该 交易 为 欺诈 ; unkn 表示 该 交易 未 经 过 公司 审查 。 
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4.2.1 加载 数据 至 R 

该 数据 集 可 在 本 书 的 R 添加 包 或 者 本 书 网 站 上 获得 。 在 本 书 网 站 上 ， 本 案例 的 数据 是 一 个 
Rdata 文件 ， 它 是 包含 本 案例 数据 集 的 一 个 数据 框 。 如 果 要 使 用 本 书 网 站 的 数据 ， 需 要 先 下 载 这 
个 文件 到 计算 机 的 本 地 目录 下 ， 然 后 运行 命令 ; 


> load("sales.Rdata") 


如 果 当 前 运行 R 的 目录 是 下 载 文 件 的 目录 ， 那 么 该 命令 将 从 这 个 文件 中 把 数据 载 人 到 一 个 
名 为 sales 的 数据 框 。 
如 果 使 用 本 书 添加 包 中 的 数据 ， 那 么 应 该 进行 如 下 操作 : 


> library (DMwR) 
> data(sales) 
而 且 ， 得 到 一 个 名 为 sales 的 数据 框 ， 可 以 用 下 面 的 代码 显示 其 前 几 行 数据 ， 如 下 所 示 ， 
> head(sales) 
ID Prod Quant Val Insp 
i vi pi 182 1665 unkn 
2 v2 pi 3072 8780 unin 
3 v3 pi 20393 76990 unkn 
4 và pi 112 1100 unkn 


5 v3 pi 6164 20260 unkn 
6v5 p2 104 1155 unkn 


4.2.2 探索 数据 集 


为 了 初步 了 解数 据 的 统计 特征 ， 可 以 使 用 函数 summary() ©, AGM: 
> summary(sales) 


ID Prod Quant Val 
va31  : 10159 pii25 : 3923 Min. : 100 Min. : 1005 
v54 : 6017  p3774 : 1824 ist Qu.: 107 ist Qu.: 1345 
v426 : 3902  pl1437 : 1720 Median : 168 Median: 2675 
v1679 : 3016  p1917 : 1702 Mean =: 8442 Mean : 14617 
v1085 : 3001  p4089 : 1598 3rd Qu.: 738 3rd Qu.: 8680 
v1183 : 2642  p2742 1519 Max. :473883883 Max. :4642955 
(0ther):372409 (Other): 388860 NAS : 13842 WA's : 1182 
Insp 
ok  : 14462 
unkn :385414 
fraud: 1270 


从 结果 可 知 ， 数 据 集 中 有 大 量 的 产品 和 销售 人 员 信 息 ， 可 以 使 用 函数 nlevels() 来 确认 这 一 点 : 
> nlevels(sales$ID) 


[1] 6016 
> nlevels(sales$Prod) 


[1] 4548 167 | 
PRSE summary() 的 结果 揭示 了 数据 集 的 几 个 事实 。 首 先 ， 在 Quant 列 和 Val 列 有 大 量 的 缺失 


© 可 以 用 R 添加 包 Hmisc 中 的 函数 describe () 来 得 到 类 似 的 有 趣 结果 ， 留 给 读者 自己 练习 。 
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值 。 如 果 在 同一 个 交易 中 这 两 者 缺失 ， 就 会 产生 比较 严重 的 问题 ， 因 为 这 将 导致 一 条 销售 交易 中 
有 关 销 售 量 的 关键 信息 缺失 。 可 以 很 容易 地 检查 是 否 有 这 种 情况 存在 ， 代 码 如 下 ; 
> length(which(is.na(sales$Quant) & is.na(sales$Val))) 


[1] 888 


可 以 看 到 ， 具 有 以 上 问题 交易 的 数量 是 合理 的 。 鉴 于 总 的 交易 数量 很 大 ， 人 们 可 以 质疑 是 否 
可 以 简单 地 删除 这 些 同 时 缺失 Val 和 Quant 列 的 报告 。 我 们 将 在 4.2.3 节 中 考虑 这 个 问题 和 其 他 
的 方法 。 

附带 一 提 ， 特 别 是 对 特大 数据 集 ， 有 更 高 效 的 方式 获取 以 上 信息 。 在 上 面 的 命令 中 ,虽然 看 
起 来 使 用 函数 length( ) 和 函数 which( ) 更 容易 理解 ， 但 可 以 利用 R CrPIGESEREUARGASA (T=1, 
F =0) 更 高 效 地 得 到 上 面 的 结果 ， 

> sum(is.na(sales$Quant) 点 is.na(sales$Val)) 


[1] 888 


从 函数 summary( ) 的 结果 得 到 的 男 一 个 有 趣 的 结论 是 检查 列 的 数据 分 布 。 实 际 上 ， 正 如 预 
期 的 那样 ， 欺 诈 行为 的 比例 相对 较 低 。 即 使 只 考虑 那些 已 经 检查 过 的 销售 记录 ， 欺 诈 行为 的 比例 
总 体 而 言 也 是 较 低 的 ; 


> table(sales$Insp)/nrow(sales) * 100 


ok unkn fraud 

3.6051712 96.0782359 0.3165930 

图 4-1 显示 了 每 个 销售 人 员 报 告 的 数量 。 可 以 确认 的 是 ， 所 有 销售 人 员 的 数据 相当 不 同 。 
4-2 显 示 了 类 似 的 上 述 数据 ， 但 是 是 针对 每 个 产品 的 。 我 们 再 一 次 看 到 了 很 大 的 变动 性 ， 上 述 两 
个 图 形 可 以 用 下 面 代 码 得 到 : 

> totS «- table(sales$ID) 

» totP «- table(sales$Prod) 

> barplot(totS, main = "Transactions per salespeople", names.arg = "", 

* xlab = "Salespeople", ylab = "Amount") 

> barplot(totP, main = "Transactions per product", names.arg = "", 


+ xlab = "Products", ylab = "Amount") 
Transactions par salespeople 
g 





a2 


Sat 


图 4-1 每 个 销售 人 员 的 交易 数量 
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变量 Quant 和 Val 的 描述 性 统计 量 显 示 了 相当 明显 的 变动 性 。 这 表明 报告 中 的 产品 可 能 有 很 
大 的 不 同 ， 因 此 对 不 同 产 品 分 别 进行 处 理 是 有 意义 的 。 实 际 上 ， 如 果 两 个 交易 报告 的 产品 是 相同 
的 ， 而 产品 的 标准 价格 差别 太 大 ， 那 么 其 中 的 一 个 交易 报告 只 能 视 为 不 正常 。 不 过 ， 用 这 两 个 数 
量 得 出 这 样 的 结论 可 能 不 是 太 理 想 的 根据 。 实 际 上 ， 由 于 每 个 交易 中 销售 的 产品 数量 不 同 ， 所 以 
用 单位 产品 的 价格 来 进行 上 面 的 分 析 可 能 更 正确 。 可 以 把 这 个 单位 产品 价格 作为 新 的 一 列 加 入 
到 数据 框 中 ， 代 码 如 下 : 

> sales$Uprice <- sales$Val/sales$Quant 


Transactions per product 


1000 





Products 


图 4-2 每 个 产品 的 交易 数量 [169 | 


在 交易 中 ， 同 一 产品 的 单位 交易 价格 应 该 是 相对 稳定 的 。 当 分 析 一 个 较 短 时 期 内 的 交易 时 ， 
产品 的 单位 价格 不 应 该 出 现 巨大 变化 。 

我 们 可 以 用 如 下 代码 来 检查 产品 单位 价格 的 分 布 : 

> summary (sales$Uprice) 


Min. ist Qu. Median Mean 3rd Qu. Max. 
2.4480e-06 8.4600e*-00 1.1890e+01 2.03090e*01 1.9110e+01 2.6460e+04 
NA's 
1.4136e*04 
我 们 再 次 看 到 明显 的 变动 性 。 


鉴于 这 些 事实 ， 我 们 不 可 避免 地 要 分 别 对 每 个 产品 的 交易 进行 分 析 ， 据 此 找 出 每 个 产品 的 
可 疑 交 易 。 应 用 这 种 方法 的 一 个 问题 是 部 分 产品 只 有 非常 少 的 交易 。 实 际 上 ， 在 4548 种 产品 中 ， 
有 982 种 产品 的 交易 量 小 于 20。 基 于 这 种 小 于 20 的 样本 得 出 一 个 报告 为 不 寻常 报告 有 较 大 的 
风险 。 

检查 最 贵 的 和 最 便宜 的 产品 可 能 是 很 有 趣 的 。 我 们 用 单位 价格 的 中 位 数 来 代表 已 售 产品 的 
标准 价格 。 下 面 代码 用 于 获取 我 们 所 需要 的 信息 : 


> attach(sales) 
> upp <- aggregate (Uprice, list (Prod) ,median,na.rm=T) 

> topP <- sapply(c(T,F),function(o) 

+ upp [order (upp[, 2] , decreasing-o) [1:5] , 17) 

> colnames(topP) <- c('Expensive!,'Cheap') 

> topP 
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Expensive Cheap 

[1,] "p3689" "p560" 

[2,] "p2453" "p559" 

[3,] "p2452" "p4195" 

[4,] "p2456" "p6oi" 

[5,] "p2459" "p563" 

我 们 把 数据 框 添 加 到 R 中 ， 这样 便 于 直接 应 用 数据 框 的 列 名 。 我 们 使 用 aggregate ( ) 函数 得 
到 每 个 产品 的 单位 价格 的 中 位 数 。 函 数 aggreagte( ) 把 某 个 产生 数值 的 函数 (RR) 应 用 在 
按照 某 些 因子 (或 因子 列表 ) 形成 的 数据 子 组 上 。 其 结果 是 一 个 数据 框 ， 数 据 框 的 值 为 每 个 组 
的 聚合 函数 值 。 从 上 面 获 得 的 数据 框 ， 我 们 通过 应 用 函数 sapply( ) 并 更 改 函数 order( ) 的 参数 
decreasing 的 值 ， 得 到 5 个 最 昂贵 (最 便宜 ) 的 产品 。 

我 们 可 以 用 这 5 个 产品 的 单位 价格 的 箱 图 来 确认 它们 宛 全 不 同 的 价格 分 布 ; 


> tops <- sales[Prod Zink topP[i1, ], c("Prod", "Uprice")] 

> tops$Prod «- factor(tops$Prod) 

> boxplot(Uprice ^ Prod, data = tops, ylab = "Uprice", log = "y") 

is TE “%in%” ATWR-MERBAT—TRa. LEREM AY factor( ) 十 分 必 
要 ， 否 则 数据 框 tops 的 Prod 列 的 水 平 数 将 和 原始 的 sales 数据 框 的 Prod 列 的 水 平 数 相 同 。 这 将 导 
致 boxplot() 函数 为 每 个 水 平 值 绘制 一 个 箱 图 。 最 昂贵 价格 和 最 便宜 价格 的 数据 量 纲 是 相当 不 同 
的 。 为 了 避免 最 便宜 产品 的 数据 变 得 无 关 紧 要 ， 我 们 在 图 形 中 取 了 对 数 。 这 通过 设置 参数 log =y 
来 实现 ， 它 表明 了 轴 是 原始 数据 的 对 数 (注意 ， 数 轴 上 的 同一 距离 所 对 应 的 单位 价格 的 不 同 范 
围 ) 。 上 述 代码 的 结果 如 图 4-3 所 示 。 





p580 p36ee 


图 4-3 最 便宜 和 最 昂贵 产品 的 单位 价格 分 布 
可 以 进行 类 似 的 分 析 ， 以 找 出 那些 给 公司 带 来 更 多 ( 少 ) 资金 的 销售 人 员 ; 


> VB <- ageregate(Val,list(ID),sum,na.rm=T) 
> scoresSs <- sapply(c(T,F),function(o) 


+ vs [order (vs$x,decreasing=o) [1:5],1]) 
> colnames(scoresSs) <- c('Most','Least') 
> scoresSs 


Most Least 
[1,] "v431"  "v3355" 
[2,] "v54" "v6069" 
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[3,] "v19"  "v5876" 
[4,] "v4520" "v6058" 
[5,] "v955" "v4515" 


有 趣 的 是 ， 上 面 列 表 中 给 公司 带 来 更 多 资金 的 前 100 名 销售 人 员 的 资金 收入 几乎 占 公 司 资金 
收入 的 40% ， 而 在 6016 名 销售 人 员 中 ， 底 部 2000 人 的 总 收入 不 足 公司 总 收入 的 2% 。 这 可 能 给 
出 某 些 提示 ， 说 明 该 公司 需要 进行 内 部 改革 。 

‘> sum(vs[order(vs$x, decreasing = T)[1:100], 2])/sum(Val, na.rm = T) * 

* 100 

[1] 38.33277 


> sum(vs[order(vs$x, decreasing = F)[1:2000], 2])/sum(Val, 
* na.rm = T) * 100 
[1] 1.988716 


如 果 我 们 对 每 个 产品 所 销售 的 数量 进行 类 似 的 分 析 ， 结 果 更 加 不 平衡 : 


> qs <- aggregate(Quant,list(Prod),sum,na.rm*T) 
> scoresPs «- sapply(c(T,F),function(o) 


+ qs [order (qs$x,decreasing=o) [1:5], 1]) 
> colnames(scoresPs) «- c('Most','Least') 
> scoresPs 


Most Least 
[1,] "p2516" "p2442" 
[2,] "p3599" "p2443" 
[3,] "p314", "p1653" 
[4,] "p569" "p4101" 
[5,] "p319" "p3678" 
> sum(as.double(qs [order (qs$x,decreasing=T) [1:100] ,2]))/ 
+ | sum(as.double(Quant) ,na. rmzT) «100 
[1] 74.63478 


> sum(as.double(qs [order (qs$x,decreasing=F) [1:4000] ,2]))/ 
+ gsum(as.double (Quant) ,na.rm=T)*100 


[1] 8.94468 


你 可 能 已 经 注意 到 上 面 的 代码 使 用 了 as. double() 函数 。 这 种 情况 下 ，sum( ) 函数 产生 的 
数目 太 大 ， 必 须 用 double KAKF. Ailt, MARX as. double() 能 确保 这 种 类 型 转换 。 

在 4548 个 产品 中 ， 其 中 4000 个 产品 代表 了 少 于 1090 的 销量 ， 而 销量 最 高 的 100 个 产品 占 了 
近 75% 的 销量 。 这 个 信息 对 产品 的 生产 十 分 有 用 。 特 别 地 ， 它 并 不 意味 着 公司 应 该 停止 生产 销 
售 量 较 少 的 产品 。 事 实 上 ， 如 果 这 些 产 品 有 更 高 的 边际 利润 ， 就 会 更 有 利 可 图 。 由 于 我 们 没有 关 
于 产品 制造 成 本 的 任何 信息 ， 所 以 无 法 得 出 是 否 继续 生产 销量 小 的 产品 的 任何 绪论。 

我 们 为 了 发 现 异常 交易 报告 ， 做 出 的 主要 假设 之 一 是 ， 所 有 产品 的 单位 价格 都 遵循 一 个 接 
近 正 态 的 分 布 。 这 意味 着 ， 我 们 预期 的 同一 产品 的 单位 价格 大 致 相同 ， 它 们 之 间 小 的 变化 可 能 是 
由 于 销售 人 员 为 了 达到 他 们 的 商业 目标 而 采取 的 策略 。 在 这 种 假设 下 ， 有 一 些 基本 的 统计 检验 
技术 来 帮助 我 们 发 现价 格 是 否 偏 离 正 态 假设 。 其 中 一 个 方法 是 基于 箱 图 规则 。 在 本 书 中 ， 我 们 已 
经 多 次 看 到 用 箱 图 来 侦 测 离 群 值 。 箱 图 规则 的 定义 是 : 如 果 一 个 观测 值 高 于 上 须 (或 者 低 于 下 
A), ， 则 将 观测 值 标记 为 异常 高 ( 低 )。 上 须 的 定义 是 Q, +1.5xIQR (下 人 须 的 定义 为 0, -1.5 x 
IQR), HPO, 是 第 一 个 四 分 位 数 ，Q, 是 第 三 个 四 分 位 数 ，IQR 是 四 分 位 距 ， 其 定义 为 IQR = 
(Q, -0,)。 这 个 简单 的 规则 对 正 态 分 布 的 变量 很 有 效 。 由 于 它 是 基于 四 分 位 数 这 一 稳健 的 统计 
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量 ， 所 以 在 有 少数 离 群 值 时 该 规则 是 稳健 的 。 下 面 的 代码 可 以 〈 根 据 上 述 定 义 ) 确定 每 个 产品 
的 异常 值 个 数 ;: 
> out <- tapply(Uprice, list (Prod=Prod), 
+ function(x) length(boxplot.stats(x)$out)) 
函数 boxplot. stats( ) 可 以 获得 某 些 用 于 绘制 箱 图 的 统计 有 量 。 它 返回 含有 这 些 信息 的 一 个 列 
表 。 列 表 的 out 元 素 包 含 了 根据 箱 图 规则 被 视 为 离 群 值 的 观测 值 。 上 面 的 代码 计算 了 每 个 产品 交 
易 中 含 有 的 离 群 值 数量 。 含 有 较 多 离 群 值 的 产品 如 下 所 示 : 
173 


> out[order(out, decreasing = T)[1:10]] 


Prod 
pii125 p1437 p2273 p1917 p1918 p4089 p538 p3774 p2742 p3338 
376 181 165 156 156 137 129 125 120 117 
应 用 这 个 简单 方法 ， 找 到 29 446 个 被 认为 是 离 群 值 的 交易 ， 这 相当 于 总 交易 数量 的 7% 。 


> sum(out) 
[1] 29446 
> gum(out)/nrow(sales) * 100 


[1] 7.34047 


也 许 读者 会 怀疑 这 个 简单 的 确定 离 群 值 的 规则 是 否 能 充分 提供 这 个 案例 中 所 需要 的 帮助 。 
4. 4. 1. 1 节 将 对 这 个 规则 稍 加 修改 以 适应 我 们 的 应 用 ， 并 评估 其 性 能 。 

需要 注意 本 节 中 得 出 的 某 些 结论 。 我 们 使 用 的 数据 独立 于 下 面 的 事实 : 有 些 报 告发 现 有 其 
诈 ， 而 其 他 的 报告 可 能 也 有 其 许 ， 只 是 没有 探测 到 。 这 意味 着 有 些 错误 数据 可 能 导致 我 们 的 某 些 
结论 是 有 偏差 的 。 这 里 的 问题 是 ， 对 那些 标记 为 有 欺诈 的 报告 ,我 们 不 知道 真 的 是 否 有 欺诈 。 理 
论 上 ,我 们 肯定 正确 的 交易 是 那些 在 列 Insp 取 值 为 OK 的 报告 ， 然 而 这 些 报 告 只 占 总 交易 量 的 
3.6% 。 所 以 ， 尽 管 分 析 是 正确 的 ,但 结果 可 能 受 低 质 量 的 数据 影响 。 这 在 现实 问题 中 应 该 考虑 
到 ， 不 要 基于 包含 错误 的 数据 来 给 公司 提供 建议 。 然 而 完整 检查 数据 是 不 可 能 的 ， 因 此 这 种 风险 
总 是 会 存在 的 。 至 多 我 们 在 探索 性 分 析 数 据 时 避免 使 用 已 经 发 现 包含 错误 的 较 少 的 交易 数据 。 
男 一 个 可 以 做 的 事情 就 是 把 结果 呈现 给 公司 ， 如果 他 们 认为 某 些 分 析 结 果 是 非 期 望 的 ， 可 以 对 
这 些 导致 惊奇 结果 的 数据 进行 更 细致 的 分 析 。 这 意味 着 这 种 分 析 通 常 需要 与 领域 专家 以 某 种 形 
式 进 行 沟通 ， 特 别 是 像 本 案例 中 这 样 怀疑 数据 的 质量 时 。 此 外 ， 这 种 类 型 的 探索 性 分 析 对 低 质量 
的 数据 尤其 重要 ， 因 为 许多 问题 可 以 容易 地 在 这 个 阶段 发 现 。 

[74] 4.2.3 数据 问题 

数据 质量 问题 可 能 会 给 应 用 本 章 后 面 技术 带 来 一 些 障碍 ， 本 节 将 介绍 一 些 数据 质量 问题 。 

4.2.3.1 缺失 值 

我 们 从 处 理 缺 失 值 这 一 问题 开始 。 在 2.5 节 中 提 到 ， 基 本 上 有 3 个 选择 : 1) 剔除 这 些 个 案 ; 
2) 用 某 些 策略 来 填补 缺失 数据 ; 3) 运用 可 以 处 理 缺 失 值 的 工具 。 考 虑 到 本 章 将 要 用 到 的 工具 ， 
只 有 前 两 个 选择 对 我 们 是 有 效 的 。 

前 面 提 到 过 ， 主 要 的 问题 是 变量 Quant 和 变量 Val 都 有 数据 缺失 的 交易 。 如 果 移 除 所 有 的 
888 个 个 案 将 导致 噜 除 某 些 产品 或 销售 人 员 的 大 部 分 交易 ， 这 时 候 全 部 剔除 888 个 个 案 是 有 问题 
的 。 下 面 ， 我 们 检查 这 种 情况 是 理会 发 生 。 

每 个 销售 人 员 和 产品 的 变易 数量 由 下 面 的 代码 给 出 : 

> totS «- table(ID) 

» totP «- table(Prod) 
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可 以 用 下 面 的 代码 显示 与 存在 问题 的 交易 相关 的 销售 人 员 和 产品 : 
> nas <- sales[which(is.na(Quant) 点 is.na(Val)), c("ID", "Prod")] 


下 面 给 出 变量 Quant 和 变量 Val 同时 有 人 缺失 值 的 交易 占 很 大 比例 的 销售 人 员 : 
> propS <- 100 * table(nas$ID)/tots 
> propS[order(propS, decreasing = T)[1:10]] 


v1237 v4254 v4038 v5248 v3666 v4433 v4170 
13.793103 9.523810 8.333333 8.333333 6.666667 6.250000 5.555556 
v4926 v4664 v4642 
5.555556 5.494505 4.761905 


至 少 从 销售 人 员 方 面 来 看 ， 直 接 剔 除 这 些 同 时 在 两 个 变量 有 人 缺失 值 的 交易 是 合理 的 ， 因 为 
它们 只 代表 了 很 小 的 一 部 分 交易 。 男 外 ， 试 图 同时 填补 那 两 列 似 乎 更 为 冒险 。 

从 产品 方面 来 看 ， 应 用 下 面 的 代码 得 到 同时 在 两 个 变量 都 有 缺失 值 的 交易 占 较 大 的 比例 的 产品 : 

> propP «- 100 * table(nas$Prod)/totP 

> propP[order(propP, decreasing = T)[1:10]] 


p2689  p2675 p4061 p2780 p4351 p2686 p2707 p2690 

39.28571 35.41667 25.00000 22.72727 18.18182 16.66667 14.28571 14.08451 

p2691 p2670 

12.90323 12.76596 

多 个 产品 将 被 删除 的 交易 超过 20% ; 特别 是 产品 p2689 将 有 近 40% 的 交易 被 删除 。 这 看 起 
来 太 多 了 。 男 一 方面 ， 如 果 我 们 决定 填补 那些 缺失 值 ， 那 么 唯一 合理 的 策略 是 使 用 相同 产品 的 具 
有 “完全 ”信息 的 交易 。 这 意味 着 运用 该 产品 剩余 60% 的 交易 信息 去 填补 该 产品 40% 的 交易 信 
息 。 这 看 起 来 也 是 不 合理 的 。 幸 运 的 是 ， 如 果 我 们 看 看 产品 的 单位 价格 分 布 之 间 的 相似 性 ( 详 
见 4.2.3.2 节 )， 那 么 我 们 实际 上 可 以 观察 到 这 些 产 品 和 其 他 产品 相当 类 似 。 这 种 情况 下 ， 我 们 
可 以 得 到 如 下 结论: 如果 剔 除 有 缺失 数据 的 交易 后 只 有 少量 的 交易 ， 那 么 我 们 就 可 以 和 类 似 产 
品 的 交易 相 结合 以 增加 离 群 值 检 测 的 统计 可 靠 性 。 总 之 ， 噜 除 所 有 同时 在 数量 和 价格 上 有 缺失 
值 的 交易 是 最 好 的 选择 : 

> detach(sales) 

> sales <- sales[-which(is.na(sales$Quant) & is.na(sales$Val)),] 

我 们 用 detach( ) 函数 来 禁止 直接 访问 数据 框 的 列 。 原 因 是 基于 attach( ) 范 数 的 工作 方式 。 
当 调 用 函数 attach (sales) 时 ，R 复制 sales 数据 框 的 每 一 列 ， 为 每 一 列 建立 一 个 新 对 象 。 如 果 从 
sales 数据 框 删除 数据 ， 那 么 这 些 变化 不 会 反映 在 这 些 新 对 象 中 。 总 的 来 说 ， 当 要 查询 的 数据 容 
易 发 生 改变 时 ,不 应 该 使 用 attach() 琐 数 提供 的 便利 ; 否则 ， 我 们 可 能 会 得 到 不 一 致 的 数据 视 
Pl: 原始 数据 框 的 数据 视图 和 函数 attach( ) 所 创建 对 象 的 视图 。 后 者 是 在 一 定时 间 内 的 原始 数 
据 框 的 “快照 ”， 如 果 在 调用 函数 attach() 后 我 们 修改 了 数据 框 ， 那 么 这 个 “快照 ”就 过 时 了 。 

现在 让 我 们 分 析 剩 余 的 在 数量 或 者 价格 变量 上 有 缺失 值 的 交易 。 我 们 从 计算 每 一 种 产品 在 
数量 上 有 人 缺失 值 的 交易 比 开 始 : 


> nnasQüp <- tapply(sales$Quant,list(sales$Prod), 
+ function(x) sum(is.na(x))) 

> propNAsQp <- nnasQp/table(sales$Prod) 

> propNAsQp[order (propNAsQp,decreasing=T) [1:10]] 


p2442 p2443 p1653 p4101 p4243 p903 p3678 
1.0000000 1.0000000 0.9090909 0.8571429 0.6842105 0.6666667 0.6666667 
p3955 p4464 p1261 
0.6428571 0.6363636 0.6333333 
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p2442 和 p2443 两 个 产品 所 有 的 交易 数量 是 缺失 的 。 因 为 我 们 无 法 计算 其 标准 单价 ， 所 以 设 


有 进一步 的 信息 ， 用 这 些 产品 的 交易 信息 不 可 能 进行 任何 分 析 。 它 们 一 共有 54 份 报 告 ， 其 中 两 


份 标记 为 欺诈 ， 而 其 他 的 标记 为 “OK”。 这 意味 着 ， 或 者 检查 员 人 掌握 了 比 这 个 数据 集 更 多 的 信 


ued 


息 ， 或 者 我 们 得 到 的 数据 有 输入 错误 ， 因 为 从 这 些 交 易 中 似 乎 不 可 能 得 到 任何 结论 。 基 于 此 ， 我 
们 将 删除 这 些 交易 报告 : | 


> sales <- sales[!sales$Prod Xin% c("p2442", "p2443"), J 
由 于 我 们 从 数据 集中 删除 了 两 种 产品 ， 所 以 我 们 应 该 更 新 列 Prod 的 水 平 : 


> nlevels(sales$Prod) 

[1] 4548 

» gales$Prod «- factor (sales$Prod) 
> nlevels(sales$Prod) 


[1] 4546 


是 否 有 销售 人 员 的 所 有 交易 数量 为 缺失 值 ? 


> nnasQs <- tapply(sales$Quant, list(sales$ID), function(x) sum(is.na(x))) 
> propNAsQs <- nnasQs/table(sales$ID) 
> propNAsQs[order(propNAsQs, decreasing = T)[1:10]] 


v292b v5537 v5836 v6058 v6065 v4368 v2923 
1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 0.8888889 0.8750000 
v2970 v4910 v4b42 
0.8571429 0.8333333 0.8095238 


从 上 面 结果 可 以 看 到 ， 有 几 个 销售 人 员 没 有 在 报告 中 填写 交易 的 数量 信息 。 然 而 ， 这 种 情况 


下 ， 问 题 没 有 那么 严重 。 实 际 上 ， 应 用 单位 价格 应 该 类 似 的 假设 ， 只 要 我 们 有 其 他 销售 人 员 报 告 
的 相同 产品 的 交易 ， 我 们 就 可 以 尝试 使 用 此 信息 来 填补 那些 缺失 值 。 正 因为 如 此 ， 我 们 将 不 会 删 
除 这 些 交 易 。 


现在 我 们 将 对 交易 的 Val 列 的 缺失 值 进行 类 似 的 分 析 。 首 先 ， 每 种 产品 在 该 列 有 缺失 值 的 交 


易 所 占 的 比例 为 ; 


> oe <- tapply(sales$Val, list (sales$Prod), 
function(x) sum(is.na(x))) 

> mcis «- nnasVp/table(sales$Prod) 

> propNAsVp[order(propNAsVp, decreasing=T) [1:10]] 


p1110 p1022 p4491 p1462 p80 p4307 
0.25000000 0.17647059 0.10000000 0.07500000 0.06250000 0.05882353 
p4471 p2821 p1017 p4287 
0.05882353 0.05389222 0.05263158 0.05263158 


这 些 数字 是 合理 的 ， 因 此 删除 这 些 交易 是 没有 意义 的 。 我 们 将 用 其 他 的 交易 来 填补 这 些 缺 


失 值 。 从 销售 人 员 方 面 ， 计 算 这 些 数字 的 方法 如 下 : 


> nnasVs <- tapply(sales$Val, list(sales$ID), function (x) sum(is.na(x))) 
> propNAsVs <- nnasVs/table(sales$ID) 
> propNAsVs[order(propNAsVs, decreasing = T)[1:10]] 


v5647 v74 v5946 v5290 v44T2 v4022 
0.37500000 0.22222222 0.20000000 0.15384615 0.12500000 0.09756098 
V975 v2814 v2892 v3739 


0.09574468 0.09090909 0.09090909 0.08333333 
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同样 ， 这 个 比例 不 是 太 高 。 

在 这 个 阶段 中 ， 我 们 已 经 删除 了 所 有 没有 足够 信息 来 填补 缺失 值 的 报告 。 对 剩余 的 缺失 值 ， 
基于 同一 个 产品 的 交易 单位 价格 相似 的 假设 ， 我 们 将 应 用 某 个 方法 进行 缺失 值 填补 。 我 们 将 首 
先 获 得 每 一 个 产品 的 标准 单价 。 计 算 标 准 价格 时 ， 我 们 将 跳 过 标记 为 欺诈 的 交易 价格 。 对 鳃 余 的 
交易 ， 我 们 将 使 用 每 个 产品 单位 价格 的 中 位 数 作 为 相应 产品 的 标准 价格 : 

> tPrice <- tapply(sales[sales$Insp != "fraud", "Uprice"], 

+ + list(sales[sales$Insp != "fraud", "Prod"]), median, na.rm = T) 

因为 我 们 目前 没有 交易 同时 在 这 两 个 变量 上 有 缺失 值 ， 所 以 每 一 个 产品 有 了 一 个 标准 单价 
后 ， 我 们 就 可 以 用 它 来 计算 两 个 可 能 的 缺失 值 (Quant 和 Val)。 下 面 的 代码 将 填补 所 有 剩余 的 缺 
失 值 : 

> noQuant <- which(is.na(sales$Quant)) 

> sales[noQuant,'Quant'] <- ceiling(sales[noQuant,'Val'] / 

* tPrice[sales[noQuant,'Prod']]) 

> noVal «- which(is.na(sales$Val)) 

» sales[noVal,'Val'] «- sales[noVal,'Quant'] * 

* tPrice[sales[noVal,'Prod']] 

我 们 填补 了 12 900 个 未 知 的 数量 值 ， 并 填补 了 294 个 交易 总 价值 。 如 果 你 像 我 一 样 ， 我 相 
信 你 也 会 欣赏 上 面 这 些 完 成 所 有 操作 的 精简 代码 。 它 用 的 都 是 索引 方法 ! 我 们 使 用 ceiling( ) PR 
数 来 避免 Quant 的 非 整 数值 。 这 个 函数 返回 不 小 于 参数 中 数值 的 最 小 整数 。 

鉴于 我 们 现在 有 了 Quant 和 Val 的 所 有 值 ， 我 们 就 可 以 重新 计算 Uprice 列 的 值 来 填充 先前 未 
知 的 单位 价格 : 

> sales$Uprice <- sales$Val/sales$Quant 


经 过 所 有 这 些 预 处 理 步 又 后 ， 有 一 个 疫 有 任何 缺失 值 的 数据 集 。 为 了 进一步 的 分 析 ， 保 存 当 
前 的 sales 数据 框 ， 这 样 可 以 从 这 个 数据 框 来 进行 下 面 的 分 析 ， 而 不 必 再 重复 前 面 的 所 有 步骤 。 
可 以 如 下 保存 数据 集 : 

> save(sales, file = "salesClean.Rdata") 

PRA save( ) 可 以 把 任何 对 象 保存 在 参数 file 指定 的 文件 中 。 £421 节 中 提 到 过 ， 这 些 文 
件 保 存 的 对 象 可 以 通过 load( ) 函数 载 人 到 R P, 

42.3.2 只 有 少量 交易 的 产品 

有 些 产 品 只 有 极 少 的 交易 。 因 为 需要 用 这 些 交 易 的 信息 来 确定 交易 中 是 否 有 异常 ， 所 以 这 
是 一 个 问题 。 如 果 有 太 少 的 交易 ， 在 要 求 的 统计 显著 性 下 很 难 做 出 决定 。 这 种 情况 下 ， 考 虑 是 否 
可 以 和 一 些 产品 的 交易 一 起 分 析 来 避免 这 个 问题 。 

尽管 完全 缺乏 产品 之 间 关 系 的 信息 ， 但 可 以 尝试 通过 观察 产品 单价 分 布 之 间 的 相似 性 来 
推断 其 中 的 一 些 关系 。 如 果 我 们 发 现 具 有 类 似 价格 的 产品 ， 那 么 我 们 可 以 考虑 合并 它们 相应 
的 交易 并 对 它们 一 起 进行 分 析 ， 从 而 寻找 异常 值 。 比 较 两 个 分 布 的 一 种 方法 是 可 视 化 检查 法 。 
鉴于 产品 的 数量 ， 这 是 不 可 行 的 。 另 一 种 方法 是 比较 总 结 分 布 的 一 些 统计 特性 。 连 续 变量 分 布 的 
两 个 重要 属性 是 集中 趋 执 和 离散 指标 。 如 前 所 述 ， 假 设 任何 产品 的 单位 价格 分 布 大 约 为 正 态 是 
合理 的 。 这 意味 着 虽然 价格 存在 变化 性 ， 但 它们 应 该 很 好 地 分 布 在 常见 价格 的 周围 。 但 是 ， 这 里 
也 假设 有 离 群 值 的 出 现 ， 它们 可 能 是 由 于 欺诈 企图 或 错误 造成 的 。 这 里 使 用 中 位 数 作 为 衡量 中 
心 的 统计 量 ,， 应 用 四 分 位 距 (IQR) 作为 离散 指标 的 统计 量 更 有 意义 。 与 更 常用 的 均值 和 标准 差 
相 比 ， 这 些 统计 量 在 有 离 群 值 存 在 时 更 加 稳健 。 计 算 每 种 产品 所 有 交易 的 这 两 个 统计 量 的 代码 
如 下 : 
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> attach(sales) 
> notF <- which(Insp != 'fraud') 
> ms <- tapply(Uprice[notF],list(Prod-Prod[notF]),function(x) 1 


* bp <- boxplot.stats(x)$stats 
* c(median=bp[3] , igr=bp[4]-bp[2]) 
+ Hl 
> ms <- matrix(unlist(ms), 
* length (ms), 2, 
+ byrow=T,dimnames=list (names (ms),c(median','iqr'))) 
> head(ms) 
median iqr 


pi 11.346154 8.575599 
p2 10.877863 5.609731 


p3 10.000000 4.809092 

p4 9.911243 5.998530 

p5 10.957447 7.136601 

p6 13.223684 6.685185 

上 面 代码 使 用 函数 boxplot. stats( ) 获得 中 位 数 、 第 一 个 四 分 位 数 和 第 三 个 四 分 位 数 。 对 每 个 
产品 的 所 有 交易 ， 计 算 这 些 统计 量 ， 从 分 析 中 剔除 有 欺诈 的 交易 。 有 了 这 些 统计 量 后 ， 得 到 含有 
每 个 产品 的 中 位 数 和 四 分 位 距 的 一 个 矩阵 。 | 

图 4-4a 是 根据 每 个 产品 的 中 位 数 和 IQR. 〈 四 分 位 距 ) 绘制 的 图 形 。 因 为 有 几 个 产品 在 这 些 
统计 量 上 有 很 大 的 值 ， 所 以 图 4-4 很 难 阅读 。 特 别 是 ,产品 p3689 (在 右上 和 角 的 点 ) 明显 地 与 该 
公司 的 其 他 产品 不 同 。 通 过 使 用 对 数 尺度 来 殉 服 这 个 可 视 化 的 间 题 (图 4-4b)。 在 图 4-4b 中 ， 
使 用 黑色 的 “+ ”标志 ， 表 明 该 产品 的 交易 数 少 于 20。 绘 制图 4-4 的 代码 如 下 ， 其 中 参数 log = 
xy 用 来 设置 图 形 的 两 个 数 轴 的 标 度 为 对 数 标 度 ， 


> par(mfrow = c(1, 2)) 

> plot(ms[, 1], ms[, 2], xlab = "Median", ylab = "IQR", main = "") 
> plot(ms[, 1], ms[, 2], xlab = "Median", ylab = "IQR", main = "", 
* col = "grey", log = "xy") 

> smalls «- which(table(Prod) < 20) 

> points(log(ms[smalls, 1]), log(ms[smalls, 2]), pch = "+") 


; É 
; - 
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(e) log sale 
图 4-4 单位 价格 分 布 的 某 些 特征 


在 图 4-4b 中 ， 第 一 个 注意 到 的 是 ,许多 产品 的 中 位 数 和 IQR 大 致 相同 ， 即 使 是 对 数 标 度 。 
这 提供 了 单价 分 布 相似 性 的 一 个 很 好 证 据 。 此 外 ,我 们 可 以 看 到 ， 那 些 有 少数 交易 的 产品 中 有 很 
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多 和 其 他 产品 非常 类 似 。 然 而 ， 也 有 几 种 产品 ， 它 们 不 仅 有 很 少 的 交易 ， 它 们 的 单位 价格 分 布 也 
相当 不 同 。 显 然 我 们 很 难 判断 这 些 产 品 是 否 为 欺诈 交易 。 

尽管 可 视 化 检查 单位 价格 的 分 布 特征 有 以 上 的 优点 ， 但 是 当 比 较 两 种 产品 的 分 布 时 ， 还 需 
要 有 正式 的 检验 以 获取 更 高 的 精确 度 。 因 为 非 参 数 检验 对 有 离 群 值 的 数据 更 稳健 ， 我 们 将 使 用 
这 类 检验 来 比较 单位 价格 的 分 布 。Kolmogorov-Smimorv 检验 可 以 用 来 比较 任何 两 个 样本 ， 以 检查 
两 者 都 来 自 相 同 分 布 的 原 假设 的 有 效 性 。 这 个 检验 通过 计算 两 者 累计 经 验 分 布 函数 差 值 的 最 大 
值 这 个 统计 量 来 进行 。 如 果 两 个 分 布 类 似 ， 那 么 这 个 最 大 距离 应 该 很 小 。 

对 于 交易 数量 少 于 20 的 产品 ,我 们 将 寻找 与 它 的 单位 价格 分 布 最 相似 的 产品 ， 然 后 用 
Kolmogorov-Smirnov 检验 来 检查 两 个 产品 是 否 在 统计 和 意义 上 相似 。 对 所 有 的 产品 组 合 进行 这 个 检 
查 ， 计 算 将 会 变 得 过 于 复杂 。 我 们 决定 采用 前 面 计 算 过 的 分 布 特征 (中 位 数 和 IQR)。 也 就 是 说 ， 
对 于 每 一 个 交易 数量 较 少 的 产品 ， 我 们 寻找 与 该 产品 有 相似 中 位 数 和 IQR 的 产品 。 对 于 这 种 类 
似 的 产品 ， 都 进行 了 各 自 的 单价 分 布 之 间 的 Kolmogorov-Smimov 检验 。 下 面 的 代码 用 来 获取 一 个 
JERE (similar), EFFERRE LF 20 个 交易 的 每 个 产品 的 检验 信息 。 它 用 对 象 ms KR 
存 前 面 获 得 的 每 个 产品 的 单位 价格 的 中 位 数 和 IQR。 


> dms <- scale(ms) 

> smalls <- which(table(Prod) < 20) 

> prods <- tapply(sales$Uprice, sales$Prod, list) 

> similar <- matrix(NA, length(smalls), 7, dimnames = list(names(smalls), 
* c("Simil", "ks.stat", "ks.p", "medP", "igrP", "medS", 

* "igrS"))) 

> for (i in seq(along = smalls)) { 


* d <- scale(dms, dms[smalls[i], ], FALSE) 

* d <- sqrt(drop(d^2 4*4 rep(1, ncol(d)))) 

+ stat <- ks.test(prods[[smalls[i]]], prods[[order(d)[2]]]) 

+ similar[i, ] <- c(order(d)[2], stat$statistic, statfp.value, 
+ ms[smalls[i], ], ms[order(d)[2], 1) 

+ } 


上 面 代码 首先 对 对 象 ms 的 数据 进行 标准 化 ， 避 免 计 算 距 离 时 负 值 的 影响 。 在 初始 化 后 ， 主 
循环 对 每 一 个 有 少数 交易 的 所 有 产品 进行 循环 ， 循 环 的 前 两 个 命令 计算 所 分 析 产 品 的 分 布 特性 
和 所 有 其 他 产品 之 间 的 距离 (i 的 当前 值 ) 。 产 生 的 结果 对 象 (d) 含有 这 些 距离 值 。 第 二 个 最 小 
距离 对 应 的 产品 是 与 正在 考虑 的 产品 最 类 似 的 产品 。 这 里 是 第 二 最 小 距离 ， 因 为 第 一 最 小 距离 
是 产品 本 身 。 我 们 再 次 注意 到 ， 使 用 产品 单位 价格 的 中 位 数 和 IQR 信息 来 计算 产品 之 间 的 相 
似 性 。 下 一 步 是 进行 Kolmogorov-Smirnov 检验 ,来 比较 两 个 单位 价格 的 分 布 。 这 里 调用 郴 数 
ks. test( ) 。 这 个 函数 返回 显著 性 信息 ， 其 中 “提取 ”了 检验 的 统计 量 值 和 各 自 的 显著 性 水 平 。 
统计 量 取 值 是 两 个 累积 经 验 分 布 函 数 差 值 的 最 大 值 。 接 近 1 的 置信 和 度 水 平 值 表示 有 很 强 的 统计 证 
据 表 明 两 个 分 布 相 等 这 一 原 假设 是 正确 的 。 下 面 我 们 给 出 结果 和 矩 阵 similar 对 象 的 前 几 行 ， 

> head(similar) 


Simil ks.stat ks.p medP iqrP meds iqrS 
p8 2827 0.4339623 0.06470603 3.850211 0.7282168 3.868306 0.7938557 
pis 213 0.2568922 0.25815859 5.187266 8.0359968 5.274884 7.8894149 
p38 1044 0.3650794 0.11308315 5.490758 6.4162095 5.651818 6.3248073 
p39 1540 0.2258065 0.70914769 7.986486 1.6425959 8.080694 1.7668724 
p40 3971 0.3333333 0.13892028 9.674797 1.6104511 9.668854 1.6520147 
P47 1387 0.3125000 0.48540576 2.504092 2.5625835 2.413498 2.6402087 


行 名 称 表 明 在 为 其 寻找 最 相似 的 产品 。 第 一 列 有 它 最 相似 产品 的 信息 。 可 以 用 下 面 代码 得 
到 矩阵 similar 前 面 几 行 相应 产品 的 ID: 
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> levels(Prod) [similar[1, 1]] 
[1] "p2829" 
179 在 Kolmogorov-Smirnov 统计 量 和 置信 度 水 平 列 之 后 ， 我 们 有 产品 的 中 位 数 、IQR 和 最 相似 产品 。 
在 90 名 显著 性 水 平 下 ， 我 们 可 以 检查 单位 价格 分 布 有 相似 性 的 产品 的 数量 : 
> nrow(similar[similar[, "ks.p"] >= 0.9, J) 


小 182 


[1] 117 
或 者 ， 更 有 效率 的 方式 ， 


> sum(similar[, "ks.p"] >= 0.9) 

[1] 117 

正如 你 从 少 于 20 个 交易 的 985 个 产品 中 所 看 到 的 ， 我 们 只 能 为 其 中 的 117 个 产品 找到 类 似 
的 产品 。 不 过 ， 当 分 析 哪 些 交 易 是 不 正常 交易 时 ， 这 些 都 是 有 用 的 信息 。 对 于 这 117 个 产品 ， 我 
们 可 以 把 更 多 的 交易 纳入 决策 过 程 中 ， 从 而 提高 检验 的 统计 显著 性 水 平 。 我 们 保存 了 similar 对 
象 ， 以 后 需要 产品 之 间 的 这 种 相似 性 时 可 以 直接 使 用 该 对 象 ; 


> save(similar, file = "similarProducts.Rdata") 


4.3 定义 数据 挖 气 任 务 


有 些 交 易 报 告 被 强烈 怀疑 为 欺诈 交易 ， 这 个 应 用 程序 的 主要 目的 是 运用 数据 挖掘 工具 ， 为 
确定 是 否 核 查 这 些 交 易 提供 指导 。 由 于 可 用 于 该 检查 任务 的 资源 是 有 限 的 并 且 是 变化 的 ， 因 此 
这 个 指导 应 该 以 欺诈 概率 排序 的 形式 给 出 。 

4.3.1 问题 的 不 同 解决 方法 

数据 集 有 一 列 (Insp) 含有 先前 检验 活动 的 信息 。 这 里 的 主要 问题 是 大 多 数 可 用 的 报告 没有 
被 检验 。 从 确定 已 有 报告 是 否 为 欺诈 的 任务 角度 来 看 ， 变 量 Insp 中 的 unkn 值 和 缺失 值 的 意义 是 
一 样 的 。 这 个 值 代表 缺少 这 笔 交 易 是 OK 还 是 欺诈 的 信息 。 也 就 是 说 ， 我 们 的 数据 集 有 两 种 类 型 
的 观测 值 。 我 们 有 一 个 较 小 的 数据 集 ， 其 中 的 数据 有 标记 ， 它 有 交易 的 特征 描述 和 检验 的 结果 。 
另外 一 个 较 大 的 数据 集 是 没有 标记 的 ， 它 们 没有 被 检验 ， 列 Insp 的 值 为 unkn。 在 这 种 情况 下 ， 

取决 于 用 于 建 模 的 观测 值 的 类 型 我们 有 不 同 的 建 模 方法 。 

4.3.1.1 无 监督 技术 

对 于 未 被 检验 的 报告 ，Insp 列 没 有 任何 信息 ， 所 以 它 对 分 析 没 有 影响 。 对 于 这 些 观测 值 ， 我 
们 只 有 对 交易 的 描述 。 这 意味 着 这 些 销 售 报告 仅仅 有 描述 它 的 自 变量 。 这 种 类 型 的 数据 适用 于 
非 监 督学 习 技 术 。 这 些 方 法 被 这 人 么 命名 是 因为 它们 的 目标 不 是 像 有 监督 的 方法 那样 在 “老师 ” 
的 监督 下 学 习 概 念 。 有 监督 方法 应 用 的 数据 就 是 它们 所 学 习 概 念 的 例子 (例如 ， 欺 诈 或 者 正常 
交易 的 概念 ) 。 这 就 要 求 领域 专家 预先 就 目标 概念 对 数据 进行 分 类 。 而 检验 结果 未 知 的 报告 则 不 
适用 于 这 种 情况 。 因 此 我 们 面临 的 不 是 预测 任务 ( 即 有 监督 方法 的 目标 ) ， 而 是 一 个 描述 性 的 数 
据 挖掘 任务 。 

聚 类 分 析 是 描述 性 数据 挖掘 的 一 个 例子 。 育 类 方法 试图 对 一 组 观测 值 形成 多 个 聚 类 ， 一 个 
聚 类 内 的 个 案 相 似 ， 从 而 找到 这 些 观 测 值 的 “自然 ”组 别 。 相 似 性 概念 通常 要 求 由 描述 观测 值 
的 变量 所 定义 的 空间 给 出 一 个 距离 定义 。 这 个 距离 定义 是 衡量 一 个 观测 值 和 其 他 观测 值 之 间距 
离 的 函数 。 距 离 靠 近 的 个 案 通 常 认为 属于 同一 个 自然 组 。 

异 篆 值 检 测 也 可 以 看 做 是 描述 性 的 数据 挖掘 任务。 有些 异常 值 (或 称 为 离 群 值 ) 检测 方 
法 假定 数据 的 预期 分 布 ， 把 背离 这 一 分 布 的 任何 值 标 记 为 异常 值 。 另 一 个 常见 的 异常 值 检 测 
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策略 是 假定 一 个 变量 空间 的 距离 度量 ,然后 把 距离 其 他 观测 值 “ 太 远 ” 的 观测 值 标记 为 异常 
观测 值 。 

从 以 上 的 描述 中 我 们 可 以 知道 在 聚 类 和 异常 值 检 测 之 间 有 很 密切 的 关系 。 基 于 观测 值 之 间 
距离 的 方法 都 是 这 样 的 。 根 据 定 义 ， 异 常 值 是 十 分 不 同 的 个 案 ， 它们 与 聚 类 中 其 他 观测 值 距离 太 
远 ， 因 此 不 能 和 聚 类 中 的 其 他 观测 值 一 致 。 这 意味 着 一 个 好 的 数据 集聚 类 不 应 该 在 大 的 数据 类 
中 含有 异常 值 。 至 多 我 们 期 望 该 异常 值 和 其 他 异常 值 类 似 ,， 但 根据 定义 ， 这 些 是 罕见 的 观测 值 ， 
因此 不 应 该 形成 一 个 大 的 数据 类 。 

我 们 问题 中 应 用 的 无 监督 技术 有 一 些 约束 条 件 。 事 实 上 ， 我们 的 目标 是 得 到 一 组 观测 值 的 
异常 值 排 序 。 这 个 排序 作为 公司 内 检验 决策 的 基础 。 这 意味 着 选择 的 无 监督 工具 必须 可 以 用 来 
识别 和 排列 异常 值 。4. 4. 1 节 描 述 了 我 们 用 来 解决 这 个 数据 挖掘 任务 的 无 监督 技术 。 

无 监督 学 习 的 参考 文献 

聚 类 分 析 是 一 个 成 熟 的 研究 方法 。 好 的 参考 文献 是 Kaufman 和 Rousseeuw (1990), Murtagh 
(1985) 的 著作 。 更 多 有 关 数 据 控 握 方 面 的 内 容 可 以 在 很 多 数据 挖 所 的 参考 书 中 找到 ， 例 如 Han 
和 Kamber (2006) 的 书 。 很 多 学 科 中 都 有 异常 值 探测 的 研究 。 标 准 的 参考 资料 包括 Barnett 和 
Lewis (1994) 和 Hawkins (1980) 的 书 。Austin (2004) 和 Chandola 等 人 (2007) 给 出 了 关于 异 
常 值 探测 很 好 的 概述 。 有 关 聚 类 和 异常 值 之 间 的 关系 ， 可 以 参考 Ng 和 Han (1994), Torgo 
(2007) 的 文章 。 

4.3.1.2 有 监督 技术 

有 正常 或 者 欺诈 标记 的 交易 (经 过 检验 ) 集合 可 以 应 用 其 他 类 型 的 建 模 方法 。 有 监督 学 习 
方法 应 用 这 种 有 标记 的 数据 类 型 。 有 监督 学 习 方 法 的 目标 是 找到 目标 变量 (需要 学 习 的 概念 ) 
和 一 组 自 变量 (预测 变量 或 者 属性 ) 之 间 的 关系 。 这 个 模型 可 以 认为 是 一 个 与 描述 了 目标 变量 Y 
和 预测 变量 X,, X, +, X, SMKRAHRMBMY =f (X, XQ. c0, XQ) 的 近似 。 这 个 建 模 技 
术 的 任务 是 得 到 能 够 优化 某 些 选择 准则 的 模型 参数 ， 例 如 ， 最 小 化 模型 误差 。 这 个 搜索 任务 在 学 
习 现 象 的 观测 值 样本 的 帮助 下 进行 ， 即 它 是 基于 包含 所 学 习 概 念 例 子 的 数据 集 。 这 些 例子 是 变 
EX, X, e, X, 了 的 特殊 实例 。 如 果 目 标 变量 了 是 连续 的 ， 那么 就 有 一 个 (多 元 ) BAM 
题 。 如 果 了 是 一 个 名 义 变量 ,那么 就 有 一 个 分 类 问题 。 

就 我 们 的 数据 集 而 言 ， 目 标 变量 是 检验 任务 的 结果 ， 它 有 两 个 可 能 取 值 : ok 和 fraud。 这 意 
味 着 我 们 的 目标 是 学 习 欺 诈 报 告 和 正常 报告 的 概念 。 因 此 我 们 面临 一 个 分 类 问题 。 注 意 ， 由 于 我 
们 不 能 确定 报告 是 否 为 欺诈 ， 所 以 没有 经 过 检验 的 交易 是 不 能 用 在 这 些 任 务 中 的 。 这 意味 着 如 
果 我 们 想 要 用 分 类 技术 得 到 一 个 模型 ， 然 后 用 它 来 预测 一 个 给 定 的 报告 是 不 是 欺诈 ， 那 么 我 们 
只 能 用 401 146 个 报告 中 的 15 732 个 报告 作为 训练 样本 。 

我 们 面 对 的 分 类 问题 有 影响 性 能 评估 和 模型 本 身 的 特殊 性 。 这 个 特殊 性 在 于 ， 在 两 个 可 能 
的 类 值 中 ， 一 个 值 的 出 现 频率 远 远 大 于 男 一 个 值 。 实 际 上 ， 在 15 732 个 检验 报告 中 ，14 462 个 
是 正常 交易 ， 剩 下 的 只 有 1270 个 报告 为 欺诈 。 此 外 ， 这 个 不 太 频 繁 的 概念 实际 上 是 这 个 问题 中 
最 重要 的 概念 ， 因 为 它 涉及 应 用 的 目的 : 欺诈 侦 测 。 这 意味 着 我 们 必须 选择 这 样 的 评价 标准 ， 它 
能 够 正确 地 衡量 不 频繁 分 类 的 性 能 评价 ， 同 时 我 们 应 该 选择 的 建 模 技术 也 必须 能 够 处 理 非常 不 
平衡 的 数据 。 

本 案例 对 分 类 工具 的 应 用 进行 了 一 些 改 变 。 事 实 上 ， 我们 感 兴趣 的 是 按照 可 能 存在 欺诈 的 
概率 大 小 对 交易 排序 。 这 意味 着 对 于 新 报告 组 成 的 测试 集 ， 我 们 将 用 模型 决定 哪些 报告 需要 进 
行 检 验 。 对 于 给 定 的 测试 个 案 ， 有 些 分 类 算法 只 能 够 输出 该 个 案 的 类 别 标签 。 这 对 于 我 们 的 问题 
是 不 够 的 ， 因 为 它 没有 给 出 划分 为 欺诈 的 个 案 的 排序 。 如 果 有 太 多 这 样 的 个 案 ， 而 检验 资源 有 
限 ， 我 们 就 不 能 决定 先 处 理 哪 一 个 。 我 们 需要 的 是 一 个 概率 分 类 ， 也 就 是 说 ， 模 型 不 仅 应 该 预测 
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一 个 分 类 标签 ， 而 且 还 应 该 有 这 个 标签 的 相关 概率 。 这 将 使 我 们 按照 所 估计 的 报告 为 欺诈 的 概 
率 来 对 个 案 进行 排序 。 

有 监督 学 习 的 参考 文献 

有 监督 学 习 【或 者 称 为 预测 模型 ) 是 一 门 成 熟 的 学 科 ， 它 有 很 多 不 同 的 方法 来 获得 未 知 预 
测 函数 的 逼近 。 任 何 关于 数据 挖掘 的 书 都 包 插 这 种 技术 【人 鲁 如 ，Han 和 Kamber (2006). Hand 
等 (2001), ， 或 者 Hastie 等 (2001) ) 。 类 的 不 平衡 问题 也 是 许多 研究 工作 的 主题 ， 例 如 ，Chawla 
(2005) 或 者 Kubat 和 Matwin (1997) 。 

4.3.1.3 半 监 督 技术 

有 时候 找 到 有 标记 观测 值 的 成 本 很 大 ， 也 就 是 说 有 目标 变量 取 值 的 个 案 很 难 找到 ， 因 此 有 
了 半 监 督 方法 。 这 种 信息 通常 需要 领域 专家 的 工作 ， 这 增加 了 数据 收集 的 成 本 。 另 一 方面 ， 特 别 
是 随 着 传感器 和 其 他 类 型 数据 自动 采集 装置 的 广泛 使 用 ， 没有 标签 的 数据 往往 是 容易 获得 的 。 
因此 ， 经 常 遇 到 的 问题 是 很 大 比例 的 数据 没有 标记 ， 而 只 有 少量 的 带 标记 数据 和 它们 一 起 。 正 如 
前 面 所 看 到 的 ， 这 是 本 章 中 应 用 存在 的 情况 。 

半 监 督 技术 之 所 以 这 样 命名 是 因为 它 可 以 处 理 这 种 存在 有 标记 个 案 和 未 标记 个 案 的 数据 集 。 
通常 有 两 种 不 同 的 半 监 督 方法 。 一 方面 ， 一 种 半 监 督 分 类 技术 是 借助 未 标记 个 案 提供 的 额外 信 
息 来 提高 标准 的 监督 分 类 算法 的 性 能 。 另 一 种 半 监 督 方法 是 半 监 督 聚 类 方法 ， 它 尝试 在 聚 类 过 
程 中 形成 组 别 的 准则 上 包含 一 些 约束 ， 这 些 约 束 是 基于 标记 的 数据 ， 这 样 就 可 以 对 聚 类 过 程 进 
行 纠 偏 。 

半 监 督 聚 类 的 思想 利用 现 有 的 标签 来 对 上 聚 类 过 程 纠 偏 ， 使 相同 标签 的 个 案 在 同一 类 中 
( must-link 约束 ) ， 或 者 把 不 同 标签 的 个 案 放 人 不 同 的 组 中 (cannot-link) 。 在 基于 搜索 的 半 监 督 
事 类 中 ， 改 变形 成 聚 类 的 标准 来 对 方法 纠偏 ， 从 而 找到 合适 的 个 案 聚 类 。 在 基于 相似 性 的 半 监 督 

[186] 方法 中 ， 对 算法 使 用 的 指标 进行 优化 以 满足 标记 数据 所 施加 的 限制 。 这 意味 着 ， 通 过 “ 乍 曲 ” 
距离 的 概念 来 反映 must-link 和 cannot-link £358 . 

半 监 督 分 类 方法 有 很 多 的 替代 方法 。 一 个 众所周知 的 方法 是 自我 训练 。 这 是 一 个 迭代 方法 ， 
它 是 从 获得 有 标记 数据 的 分 类 模型 开始 。 下 一 步 使 用 这 个 模型 来 对 无 标记 数据 进行 分 类 。 把 模 
型 具有 较 高 分 类 置信 度 的 个 案 和 预测 标记 一 起 加 入 到 原始 训练 集 ， 从 而 扩大 了 训练 集 。 使 用 这 
个 新 的 训练 数据 集 ， 重 新 获取 模型 ， 然 后 重复 以 上 整个 过 程 ， 直 到 满足 一 定 的 收 伍 准则 。 半 监督 
分 类 模型 的 另 一 个 例子 是 直 推 式 支 持 向 量 机 (TSVM) 。TSVM 的 目标 是 获得 一 个 未 标记 数据 集 的 
标记 ， 从 而 使 线性 边界 在 初始 标记 数据 和 未 标记 数据 上 达到 最 大 的 利润 (参见 3.4.2.2 节 )。 

另外 ,我 们 应 该 考虑 应 用 的 特殊 限制 ， 即 获得 离 群 值 的 排序 。 取 决 于 我 们 是 使 用 半 监 督 聚 类 
方法 还 是 半 监 督 分 类 方法 ， 可 以 使 用 与 前 面 给 出 的 无 监督 和 有 监督 方法 同样 的 策略 相应 地 来 完 
成 我 们 的 任务 。 

半 监 督 方 法 的 参考 文献 

半 监 督学 习 方法 在 研究 上 党 到 了 越 来 越 多 的 重视 。Zhu (2006), Seeger (2002) 和 Zhu 
(2005) 对 已 有 工作 给 出 了 很 好 的 概述 文章 。 

4.3.2 评价 准则 

本 节 讨 论 怎样 评价 模型 。 当 给 出 交易 报告 的 一 个 测试 集 时 ， 每 个 模型 将 产生 这 些 报告 的 排 
序 。 本 节 讨 论 怎 样 评价 这 个 排序 。 

我 们 还 描述 了 用 于 获取 选 定 评价 指标 的 可 靠 估 计 的 实验 方法 。 

我 们 数据 集 的 特性 是 同时 包括 标记 和 未 标记 数据 。 在 这 个 应 用 中 ， 它 们 被 转化 为 检验 和 未 
检验 的 报告 。 这 增加 了 模型 比较 的 困难 ， 因 为 对 监督 和 无 监督 方法 的 评价 方法 通常 是 不 同 的 。 模 
型 得 到 的 排序 很 可 能 同时 包括 标记 和 未 标记 的 观测 值 。 对 前 者 而 言 ， 很 容易 评价 将 标记 数据 列 
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入 待 检查 报告 集合 的 正确 性 。 在 未 标记 的 情况 下 ， 因 为 我 们 不 能 确定 这 些 个 案 是 否 为 欺诈 ， 所 以 
这 种 评价 是 比较 困难 的 。 

4.3.2.1 决策 精确 度 与 回 漳 精 确 度 

对 我 们 的 应 用 而 言 ， 一 个 成 功 模型 应 该 得 到 一 个 交易 排序 ， 其 中 己 知 的 欺诈 交易 在 排序 的 
顶部 。 我 们 的 数据 中 有 欺诈 的 报告 占 少 数 。 给 定 一 个 我 们 的 资源 所 允许 检验 的 报告 个 数 上 ， 我们 
希望 在 排序 的 顶部 上 个 位 置 中 ， 或 者 只 有 欺诈 交易 的 报告 或 者 未 检验 的 报告 。 然 而 ， 我 们 希望 这 
个 测试 集中 所 有 已 知 的 欺骗 报告 出 现在 这 上 个 位 置 中 。 

正如 我 们 在 3. 3. 4 节 已 经 看 到 的 ， 当 我 们 的 目标 是 预测 一 个 小 集合 的 罕见 事件 (这 里 是 其 
骗 ) 时 ， 决 策 精 确 度 和 回潮 精确 度 是 合适 的 评价 指标 。 给 定 检 验 限 制 丰 值 ， 我 们 可 以 计算 排序 的 
最 顶端 下 个 位 置 的 决策 精确 度 和 回潮 精 确 度 。 这 个 限定 值 开 决定 了 根据 模型 哪些 报告 应 该 被 检 
验 。 从 监督 分 类 的 角度 看 ， 这 相当 于 把 顶端 的 上 个 位 置 预测 为 fraud 类 ， 其 余 的 则 为 正常 报告 。 
决策 精确 度 告诉 我 们 顶端 大 个 值 的 多 大 比例 事实 上 是 标记 为 其 诈 的 报告 。 回 湖 精 确 度 的 值 给 出 这 
k 个 位 置 所 包含 的 测试 集 的 欺诈 行为 的 比例 。 我 们 应 该 注意 到 ， 所 获得 的 值 是 悲观 的 。 实 际 上 ， 
如 果 顶 端 堪 个 值 包括 的 是 未 标记 的 报告 ， 它 们 不 会 进行 决策 精确 度 和 回潮 精确 度 的 计算 。 但 是 ， 
如 果 对 它们 进行 了 检验 ， 我 们 就 可 以 发 现 它们 实际 上 是 诈骗 交易 ， 因 此 决策 精确 度 和 回溯 精确 
度 可 能 会 更 高 。 

通常 决策 精确 度 和 回 亢 精确 度 之 间 有 一 个 权衡 。 比 如 ， 如 果 所 有 测试 集 个案 都 预测 为 欺诈 
事件 ， 那 么 很 容易 使 决策 精确 度 达 到 1009». 。 然 而 ， 这 样 的 策略 也 将 不 可 避免 地 导致 非常 低 的 回 
湖 精 确 度 。 但 是 ， 我 们 当前 的 应 用 有 一 些 特 殊 性 。 给 定 用 于 检验 行为 的 资源 的 约 东 条 件 ， 我 们 真 
正 想 要 的 是 最 大 限度 地 利用 这 些 资源 。 这 意味 着 ， 如 果 我 们 可 以 用 x 小 时 检查 报告 ， 并 能 够 在 这 
x 小 时 捕捉 到 所 有 的 欺诈 行为 ， 那 么 我 们 很 高 兴 ! 即使 在 这 x 小 时 ， 我 们 实际 上 也 检查 了 一 些 正 
常 的 报告 ， 也 就 是 说 有 较 低 的 回 漳 精 确 度 。 回 湖 精 确 度 实际 上 蚌 在 此 应 用 中 的 关键 问题 。 我 们 需 
要 的 是 能 够 用 现 有 的 资源 达到 100% 回调 精确 度 。 

4.3.2.2 提升 图 和 PR 曲线 

4.3.2.1 节 提 到 计算 给 定 检 验 行为 的 决策 精确 度 和 回 湖 精确 度 。 在 不 同 的 检验 水 平 下 查看 模 
型 的 性 能 是 一 件 有 趣 的 事情 。 不 同 的 模型 可 能 会 在 不 同 的 水 平 上 占据 一 定 的 优势 ， 而 且 在 比较 
模型 时 ， 这 也 可 能 成 为 有 用 的 信息 。 

决策 精确 度 / 回 湖 精确 度 (PR) 曲线 是 模型 性 能 对 这 两 者 的 一 种 可 视 化 表示 。 通 过 在 不 同 的 
工作 点 得 到 上 面 两 个 统计 量 的 插值 ， 从 而 得 到 该 曲线 。 这 些 工 作 点 由 模型 提供 的 感 兴趣 的 类 别 
排序 的 中 断 点 给 出 。 在 我 们 的 例子 中 ， 这 将 对 应 于 应 用 在 模型 所 产生 的 离 群 值 排序 上 的 不 同 的 
资源 限制 。 对 不 同 的 限制 水 平 ( 即 检验 更 少 或 更 多 的 报告 ) 进行 选 代 ， 得 到 不 同 的 决策 精确 度 
和 回潮 精确 度 。PR 曲线 允许 这 种 类 型 的 分 析 。 

添加 包 ROCR (Sing et al. , 2009) 包含 多 个 函数 ， 这 些 函 数 对 评估 二 进 制 分 类 (BEREIT E 
文 所 所 到 的 有 两 个 分 类 的 问题 ) 非常 有 用 。 这 是 一 个 额外 的 添加 包 ， 必 须 安 装 后 才能 使 用 以 下 
的 程序 代码 。 该 添加 包 实 现 了 很 多 评价 指标 ， 而 且 还 包括 如 何 获得 很 多 曲线 的 方法 。PR 曲线 可 
以 很 容易 地 通过 该 添加 包 中 的 函数 得 到 。 使 用 添加 包 非 常 简 单 ， 我 们 使 用 模型 的 预测 功能 和 测 
试 集 的 真实 值得 到 类 prediction 的 一 个 对 象 。 这 是 通过 函数 prediction( ) 实现 的 。 由 此 产生 的 结果 
对 象 可 以 当做 函数 performance( ) 的 参数 值 ， 以 获得 一 些 评价 指标 。 最 后 ,将 晒 数 performance() 的 
运算 结果 用 于 plot( ) 函数 ， 画 出 不 同 的 性 能 指标 曲线 。 以 下 代码 应 用 该 添加 包 的 一 些 示 例 数据 
来 说 明 这 个 过 程 : 
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> library (ROCR) 

> data(ROCR. simple) 

> pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels) 

> perf <- performance(pred, "prec", "rec") 

> plot (perf) 

运用 上 述 代码 画 出 的 PR 曲线 如 图 4-5 的 左 图 所 示 。 添 加 包 ROCR 产生 的 PR 曲线 具有 锯齿 
形状 。 这 通常 认为 是 不 明确 的 ， 有 一 种 方法 可 以 克服 这 种 情况 。 也 就 是 说 ， 在 一 个 确定 的 回溯 精 
确 度 > 下 ， 可 以 计算 任何 大 于 或 等 于 > 的 回溯 精确 度 水 平 所 对 应 的 决策 精确 度 的 最 大 值 Prec, 
并 把 该 值 作为 水 平 r 的 决策 精确 度 ， 如 式 (4-1) 所 示 。 

Prec，(r) = maxPrec(r') (4-1) 

如 果 我 们 仔细 地 观察 performance (). 函数 的 返回 值 ， 我 们 就 会 发 现 有 一 个 名 为 y. values 的 属性 ， 
它 含 有 图 形 y 轴 上 的 值 ， 即 所 绘制 的 决策 精确 度 。 我 们 依据 式 (4-1) 计算 插值 的 决策 精确 度 ， 并 用 
ER y 轴 坐 标 值 ， 就 可 以 得 到 一 个 无 锯齿 效果 的 图 。 下 面 的 代码 就 实现 了 这 种 理想 的 图 形 ;: 

> PRcurve <- function(preds, trues, ...) { 

+ require(ROCR, quietly = T) 

+ pd <- prediction(preds, trues) 

+ pf <- performance(pd, "prec", "rec") 

+ pf@y.values t- lapply(pf@y.values, function(x) rev(cummax(rev(x)))) 

十 plot(pf, ...) 

+ 

WER TSIz FAT paz lapply( ) ， 因 为 实际 上 ， 属 性 y. values 的 值 是 一 个 列表 ， 它 包括 了 实验 
过 程 中 多 个 迭代 的 结果 。 我 们 将 在 本 章 的 后 面 利用 这 个 事实 。 对 于 每 一 个 决策 精确 度 向 量 ， 用 函 
数 cummax( ) 和 函数 rev( ) 来 计算 插值 的 预测 精确 度 。 后 一 个 函数 仅仅 是 将 向 量 倒序 排列 ， 而 
Kr cummax() 的 功能 是 获得 一 组 数据 的 累计 最 大 值 。 如 果 你 难以 理解 这 一 概念 ， 可 以 用 一 组 向 
BRERA. PRÉ PReurve() 已 经 包含 在 本 书 的 添加 包 中 ， 所 以 不 需要 输入 上 述 代 码 ， 直 
接 使 用 就 可 以 了 。 可 以 应 用 PReurve( ) 函数 演示 上 面 给 出 的 示例 数据 ， 产 生 图 4-5 的 右 图 : 

> PReurve (ROCR. simple$predictions, ROCR.simple$labels) 





0.0 0.2 0.4 0.8 0.8 1.0 
Recall 


. Recall 
图 4-5 P (47) 和 非 平滑 (Æ) 的 PR 曲线 


如 何 用 这 类 曲线 来 评价 异常 值 排序 模型 ? 我 们 有 一 个 含有 变量 Insp (有 3 个 可 能 的 取 值 : 
jag] unkn、ok 和 fraud) 的 测试 集 ， 以 及 由 某 些 模型 产生 的 测试 集 的 观测 值 排序 。 我 们 要 求 模型 给 出 
! | 测试 集中 每 一 个 观测 值 的 异常 值 排序 分 数 ， 这 些 分 数 的 范围 为 0 ~1。 分 数 越 高 ， 说 明 这 个 观测 
1% | 值 是 欺诈 交易 的 模型 置信 和 度 越 高 。 这 个 分 数 是 获得 观测 值 排序 的 信息 依据 。 
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表 4-1 示例 的 混 请 和 矩阵 
测 


és p 
X 


3 
2 


— Tp 
合计 


如 果 我 们 按照 异常 值 分 数 对 测试 集 记 录 进 行 排序 ， 那 么 根据 我 们 检验 的 资源 限制 大， 可 以 计 
算出 不 同 的 预测 精确 度 和 回溯 精确 度 值 。 确 定 检验 资源 限制 等 价 于 选择 上 述 我 们 认为 一 个 观测 
值 为 欺诈 的 异常 值 分 数 的 阔 值 。 我 们 来 看 一 个 小 例子 。 假 设 我 们 有 7 个 测试 样本 ，Insp 列 的 取 值 
为 lok, ok, fraud, unknown, fraud, fraud, unknown} 。 人 恨 设 某 个 模型 对 这 些 观测 值 给 出 的 异常 
值 分 数 为 10.2, 0.1, 0.7, 0.5, 0.4, 0.3，0.25|1。 如 果 我 们 对 这 些 分 数 进 行 排序 ， 得 到 
| fraud, unknown, fraud, fraud, unknown, ok, ok| 。 如 果 检 验 范 围 只 允许 对 两 组 观测 值 进 行 检 
a. 那么 将 等 价 于 模型 把 和 癌 量 fraud, unknown, fraud, fraud, unknown, ok, ok} 预测 为 向 量 
[fraud，fraud，ok，ok，ok，ok，ok| 。 这 正好 对 应 于 表 4-1 的 混 请 矩阵 ， 而 且 以 下 的 决策 精确 度 
和 回 济 精 确 度 也 是 通过 该 混 清和 矩阵 计算 出 的 : 


l l 
Prec = 1 = [1.5 Hec = 2417 0. 3333 


+ | 

值得 注意 的 是 ， 就 像 在 4. 3.2. 1 节 中 提 到 的 ， 对 于 没有 检验 的 报告 ， 给 出 的 是 决策 精确 度 和 
回 湖 精确 度 的 悲观 估计 。 因 此 ， 报 告 中 排名 第 二 的 fraud 的 预测 值 ， 认 为 是 不 正确 的 ， 因 为 它 的 
真实 值 为 unkn， 我 们 不 能 肯定 这 个 值 是 不 是 具有 欺诈 性 。 

我 们 将 运用 这 种 对 于 异常 值 排序 的 事后 处 理 方式 ， 去 获得 它们 的 决策 精确 度 和 回潮 精确 度 
以 及 相应 的 PR 曲线 。 

提升 图 给 我 们 提供 了 一 个 关于 模型 预测 的 不 同 角 度 。 这 些 图 给 回溯 精确 度 更 高 的 重要 性 ， 
因此 在 某 种 程度 上 ， 就 像 在 4. 3.2. 1 节 最 后 提 到 的 那样 ， 它 更 适合 我 们 的 目标 。 这 些 图 形 的 * 轴 
是 阳性 预测 率 (RPP) ， 它 是 模型 预测 一 个 阳性 类 的 概率 。 这 个 值 由 阳性 分 类 预测 值 的 数量 除 以 
测试 集 的 总 观测 值 数 量 来 估计 。 比 如 在 表 4-1 这 个 例子 中 ， 这 个 值 就 是 (1 +1)/7。 在 我 们 应 用 
程序 中 ， 我 们 可 以 将 这 个 统计 量 视 为 选 定 检验 的 报告 比例 。 提 升 图 的 y 轴 是 用 回潮 精确 度 除 以 
RPP 得 到 的 商 。 

我 们 可 以 用 ROCR 包 中 的 函数 绘制 提升 图 。 以 下 是 一 个 应 用 示例 ， 得 到 提升 图 如 图 4-6 的 左 





图 所 示 。 


> pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels) 
> perf <- performance(pred, "lift", "rpp") 
> plot (perf, main = "Lift Chart") 


尽管 在 我 们 这 个 特定 应 用 中 并 不 是 完全 要 说 明 提升 图 的 有 用 性 。 一 个 更 有 趣 的 图 将 会 给 我 
们 演示 根据 RPP 所 捕获 的 检验 限制 得 到 的 回溯 精确 度 值 。 这 个 曲线 命名 为 累积 回潮 精确 度 图 ， 
这 个 图 可 以 通过 ROCR 包 的 函数 实现 ， 其 代码 如 下 : 


> CRchart <- function(preds, trues, ...) ( 
* require(ROCR, quietly = T) 

* pd <- prediction(preds, trues) 

* pf <- performance(pd, "rec", "rpp") 
+ plot(pf, ...) 

+} 


再 次 应 用 前 面 的 虚拟 例子 ， 得 到 图 4-6 的 右 图 ， 
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> nae simple$predictions, ROCR. simple$labels, 
main='Cumulative Recall Chart') 


Litt Chart Cumulative Recall Chart 
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图 4-6 提升 图 (AB) 以 及 累积 回调 精确 度 图 ( 右 图 ) 


对 累积 回 湖 精 确 度 图 而 言 ， 模 型 的 曲线 越 靠近 左上 角 ， 模 型 越 好 。 本 书 的 添加 包 中 有 函数 
CRehart( ) ， 只 要 安装 了 该 包 ， 任 何 时 候 都 可 以 使 用 它 。 

4.3.2.3 标准 价格 的 标准 化 距离 

在 前 面 的 章节 中 我 们 看 到 的 性 能 评价 方法 ， 仅 是 对 有 标记 报告 的 排序 进行 评价 。 它 们 是 监 
督 分 类 的 评价 指标 。 由 模型 得 到 的 这 些 排名 的 前 面 位 置 极 有 可 能 包含 未 标记 的 报告 。 这 些 未 标 
记 的 报告 是 理 在 排序 中 有 正确 的 位 置 呢 ? 我 们 不 能 肯定 这 一 点 ， 因 为 我 们 没有 对 它们 进行 检验 。 
不 过 ， 我 们 可 以 对 它们 进行 浅显 的 分 析 。 例 如 ， 我 们 可 以 把 它们 的 单位 价格 和 同一 产品 报告 的 标 
准 价格 进行 比较 。 我 们 预期 这 些 价格 之 间 差 异 是 较 大 的 ， 这 就 是 一 个 提示 ， 说 明报 告 中 有 错误 。 
这 种 情况 下 ， 报 告 的 单位 价格 和 相应 产品 的 标准 单位 价格 的 距离 ， 就 是 模型 所 获得 的 异常 值 排 
名 质量 的 一 个 较 好 指标 。 

不 同 的 产品 有 不 同 规格 的 单位 价格 ， 如 图 4-4 所 示 。 为 了 避免 这 些 不 同 价格 对 异常 值 排 名 的 
影响 ,我 们 对 单位 价格 和 标准 价格 之 间 的 距离 进行 标准 化 。 运 用 IQR (四 分 位 距 ) 来 标准 化 这 个 
距离 : 

NDTP,(u) = X (4-2) 
其 中 U, 是 产品 p 的 标准 单位 价格 ， 是 该 产品 交易 的 单位 价格 的 中 位 数 ; 而 IQR, 是 该 产品 单位 价 
格 的 四 分 位 距 。 

在 我 们 的 实验 中 ， 我 们 使 用 NDTP, 的 平均 值 作为 评价 模型 性 能 的 一 个 指标 。 以 下 的 程序 代 

码 用 来 计算 这 个 统计 量 : 


> avgNDTP «- function(toInsp,train,stats) { 
+ if (missing(train) && missing(stats)) 
stop Provide either the training data or the product stats') 
if (missing(stats)) { 
notF <- which(train$Insp !- 'fraud') 
stats <- tapply(train$Uprice([notF], 
list (Prod=train$Prod[notF]), 


+++ + + 
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function(x) { 
bp <- boxplot.stats(x)$stats 
c(median=bp [3] , iqgr=bp[4] -bp[2]) 
}) 
stats <- matrix(unlist (stats), 
length (stats) ,2,byrow=T, 
dimnames=list (names (stats) ,c(‘median! ,'iqr') 
stats[which(stats[,'igr']--0),'igr'] <- 
stats[which(stats[,'iqr']--0) ,'median'] 


- 


mdtp <- mean(abs(toInsp$Uprice-stats[toInsp$Prod,'median']) / 


stats[toInsp$Prod,'iqr']) 
return(mdtp) 


ao oo ooo oo o o + + 


* 


+} 

上 述 函 数 是 把 模型 所 选择 的 用 于 检验 的 交易 作为 主要 参数 。 其 次 ， 它 必须 接收 训练 集 数据 
以 获得 每 个 产品 的 中 位 数 和 四 分 位 距 ， 或 者 接收 已 经 准备 好 了 具有 这 一 组 信息 的 数据 结构 ， 这 
样 可 以 提高 反复 调用 此 函数 时 的 计算 效率 。 如 果 接 收 的 是 训练 数据 ， 那 么 函数 将 用 训练 集 数据 
计算 每 一 个 产品 的 无 欺诈 交易 的 中 位 数 和 四 分 位 距 。 那 么 可 能 会 发 生 四 分 位 距 为 0 的 情况 ， 特 别 
是 在 产品 交易 量 较 少 的 情况 下 。 为 了 避免 计算 NDTP, 时 除数 为 零 的 情况 ,我们 把 该 情况 下 的 四 
分 位 距 设 置 为 中 位 数 的 值 。 | 
4.3.3 实验 方法 

我 们 使 用 的 数据 集 的 大 小 很 合理 。 这 种 情况 下 ， 我 们 选择 保留 (Hold Out) 方法 来 进行 实验 
比较 是 有 意义 的 。 这 个 方法 把 已 有 的 数据 焦 随 机 地 分 成 两 部 分 (通常 的 比例 为 70% 和 30%)， 其 
中 的 一 部 分 用 于 获取 模型 ， 而 另 一 部 分 用 来 测试 。 如 果 有 必要 ， 这 个 过 程 可 以 重复 多 次 ， 以 确保 
获得 的 结果 更 稳健 。 我 们 数据 集 的 容量 可 以 确保 我 们 获得 的 结果 在 统计 学 上 是 可 靠 的 。 如 果 我 
们 选择 30 的 数据 作为 验证 集 ， 就 相应 于 120 343 个 报告 。 

在 这 种 情况 下 ， 困 难 就 是 不 同类 型 报告 之 间 分 布 的 不 均衡 性 ， 即 在 标记 个 案 上 是 不 平衡 的 。 
正常 的 重 抽样 策略 可 能 会 导致 一 个 测试 集 的 正常 报告 /欺诈 报告 的 不 同 分 布 。 当 有 这 种 不 均衡 的 
分 布 类 型 时 ， 推 荐 使 用 分 层 抽样 方法 。 这 种 方法 从 具有 不 同类 型 的 观测 值 袋子 中 随机 抽样 DURS 
保 所 抽取 的 样本 遵守 初始 数据 的 分 布 。 例 如 ， 如 果 有 1096 HSRAPFAH KX, HH 90926 都 是 属 
于 类 了 ， 就 把 所 有 的 观测 值 放 和 人 两 个 独立 的 袋子 中 。 如 果 想 要 一 个 有 100 个 样本 的 随机 分 层 抽 
样 ， 束 从 有 类 于 的 观测 值 袋 子 中 随机 抽取 10 小 样本 ， 然 后 剩余 的 9 个 样本 从 有 类 了 观测 值 的 袋 
子 中 抽取 ， 这 样 做 就 遵守 了 最 开始 的 类 比例 。 

在 本 书 的 R 添加 包 中 ， 有 一 个 holdOut( ) 函数 ， 它 的 作用 和 第 3 章 中 的 交叉 验证 和 蒙特 卡 罗 
实验 类 似 ， 用 于 进行 hold-out 实验 。 该 图 数 的 一 个 参数 ， 是 hldSetting 类 对 象 ， 它 用 于 设置 实验 。 
在 其 他 参数 中 ， 这 个 对 象 允 许 你 指定 应 用 分 层 抽样 方法 。4. 4 节 给 出 了 几 个 应 用 该 函数 来 获取 我 
们 选 定 的 评价 统计 量 的 hold-out 估计 值 的 例子 。 这 些 选 定 的 统计 量 是 决策 精确 度 、 回 湖 精 确 度 和 
平均 NDTP。 下 面 的 函数 用 来 计算 这 些 指标 : 


> evalÜutlierRanking <- function(testSet,rankÜrder,Threshold,statsProds) { 
+  ordTS <- testSet[rankOrder,] 

N <- nrow(testSet) 

nF «- if (Threshold « 1) as.integer(Threshold*N) else Threshold 

cm <- table(c(rep(fraud',nF),rep('ok',N-nF)) ,ordTS$Insp) 

prec <- cm['fraud','fraud']/sum(cm['fraud',]) 

rec <- cam['fraud','fraud']/sum(cm[,'fraud']) 


++ +t t+ 
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+  AVGndtp <- avgNDTP(ordTS[nF,] ,stats*statsProds) 

+ yreturn(c(Precision=prec,Recall=rec,avgNDTP=AVGndtp) ) 

+} 

该 函数 需要 用 户 提供 测试 集 、 模 型 产生 的 该 测试 集 的 排序 、 一 个 指定 检测 限 值 的 阔 值 (无 
论 是 百分比 或 报告 的 数量 ) 和 产品 的 统计 量 〈 中 位 数 和 四 分 位 距 ) 。 

在 4.2.3.2 节 中 ， 我 们 观察 到 的 产品 相当 不 同 ， 实 际 上 有 些 产品 有 很 少 的 交易 。 因 此 ， 我 们 
可 以 质疑 一 起 分 析 所 有 产品 的 交易 是 否 有 意义 。 支 持 一 起 检查 它们 是 因为 有 一 个 变量 (产品 ID) 
可 以 用 来 区 分 产品 ， 因 此 如 果 有 必要 ， 建 模 技 术 可 以 使 用 该 变量 。 此 外 ， 把 所 有 交易 放 在 一 起 ， 
模型 可 以 利用 这 些 产 品 之 间 的 关系 。 然 而 ， 另 一 种 是 依次 分 析 每 一 个 产品 ， 获 得 它们 相应 交易 的 
离 群 值 评分 排序 。 这 就 需要 一 个 额外 的 步骤 ， 即 从 单个 产品 的 排名 获得 最 终 的 全 局 排名 ,但 该 步 
又 比较 简单 。 我 们 将 会 对 应 用 不 同 策略 建立 的 模型 进行 实验 。 从 实验 方法 的 角度 来 看 ， 我 们 把 所 
有 的 产品 聚 在 一 起 。 在 这 些 交易 中 ， 我 们 将 用 分 层 保留 策略 来 随机 选择 一 个 测试 集 。 这 个 测试 集 
将 应 用 于 不 同 的 建 模 技 术 ， 它 们 将 返回 按照 这 些 交 易 为 欺诈 的 概率 估计 的 排序 。 本 质 上 ， 模 型 可 
以 决定 对 产品 进行 单个 分 析 或 一 起 分 析 所 有 产品 。 


4.4 计算 离 群 值 的 排序 


本 节 描 述 用 于 获取 离 群 值 排序 的 不 同 模型 。 对 于 每 一 次 尝试 ， 我 们 都 采用 70%/30% HAE 
[195] 保留 策略 来 估计 结果 。 
4.4.1 无 监督 方法 

4.4.1.1 修正 的 箱 图 规则 

在 4.2.2 节 中 ,我 们 定义 了 箱 图 规则 ， 用 于 侦 测 一 个 服从 近 正 态 分 布 的 连续 变量 的 离 群 值 。 
例如 ， 产 品 的 单位 价格 这 个 例子 。 基 于 此 ， 我 们 可 以 把 这 个 简单 的 规则 看 做 是 可 以 应 用 于 本 章 数 
据 的 基准 方法 。 

应 用 箱 图 规则 发 现 每 一 个 产品 交易 中 的 异常 单位 价格 ， 从 而 识别 出 一 些 可 能 是 离 群 值 的 数 
值 。 我 们 可 以 把 一 个 规律 用 于 任何 一 个 出 现在 已 给 测试 集中 的 产品 交易 集合 上 。 最 后 ,我 们 得 到 
每 一 个 产品 可 能 的 离 群 值 集合 。 我 们 需要 决定 怎么 从 这 些 离 群 值 组 合 得 到 整个 测试 集 的 离 群 值 
排序 。 这 意味 着 为 了 排序 ， 我 们 必须 能 够 清晰 地 区 分 出 离 群 值 。 一 个 可 能 的 方法 就 是 4.3.2.3 节 
描述 的 标准 化 到 标准 (中 位 数 ) 单位 价格 (NDTP) 的 距离 。 这 个 方法 可 视 为 箱 图 规则 的 一 个 变 
形 ， 因 为 两 者 都 用 到 中 心 值 的 距离 来 决定 一 个 值 的 “ 离 群 程度 ”。 这 种 方法 (NDTP) 的 优点 在 
于 它 是 一 种 无 量 纲 的 度量 ， 因 此 可 以 将 不 同 产品 的 数值 混 放 在 一 起 ， 从 而 给 出 一 种 适用 于 全 部 
测试 集 数据 的 全 局 排序 。 


> BPrule «- function(train,test) { 
+  notF <- which(train$Insp l= 'fraud') 
ms <- tapply(train$Uprice[notF],list(Prodetrain$Prod([notF]), 
function(x) { 
bp <- boxplot.stats(x)$stats 
c(median=bp[3] , igr=bp[4]-bp[2]) 
J 
ms <- matrix(unlist(ms),length(ms),2,byrow-T, 
dimnames=list (names (ms) ,c('median' ,'igr'))) 
ms [which(ms[,'igr']--0),'igr!'] <- ms[which(ms[,'iqr']==0) ,'median'] 
ORscore <- abs(test$Uprice-ms[test$Prod,'median']) / 
ms [test$Prod,'iqr!] 
return (list (rankOrder=order (ORscore,decreasing=T) , 
rankScore=0Rscore) ) 
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上 述 函 数 的 参数 是 训练 集 和 测试 集 。 在 计算 出 每 一 种 产品 的 中 位 数 和 四 分 位 距 (IQR) 后 ， 
这 个 函数 就 用 这 些 统计 量 利用 式 (4-2) 来 计算 离 群 值 分 数 。 最 后 ， 它 返回 一 个 由 离 群 值 分 数 和 
测试 集 观察 值 排序 所 组 成 的 列表 。 假 设 这 个 方法 用 NDTP 值 来 得 到 排序 ， 那 么 可 预见 这 个 指标 的 
平均 值 可 以 很 好 地 进行 评分 。 


注意 ， 这 里 是 我 们 应 该 应 用 产品 之 间 相 似 性 信息 的 地 方 。 实 际 上 ， 对 于 交易 量 不 多 的 产品 ，[196 


我 们 可 以 考虑 检验 是 否 有 产品 的 单位 价格 分 布 显著 地 与 该 产品 相似 。 如 果 存 在 这 样 的 产品 ， 就 
把 它 的 交易 加 入 ， 因 此 可 以 用 一 个 较 大 的 样本 来 估计 中 位 数 和 IQR 统计 量 。 这 可 以 通过 调用 函数 
tapply() 来 实现 ， 这 里 我 们 包括 有 关 相 似 产品 的 信息 ， 它 们 存储 在 文件 “similarProducts. Rdata” 
中 (参见 4.2.3.2 节 的 最 后 ) 。 这 一 点 留 给 读者 自行 练习 。 

我 们 现在 用 保留 实验 方法 来 评价 这 个 简单 的 方法 。 为 了 计算 每 种 产品 的 平均 NDTP 值 ， 首 先 
计算 每 一 种 产品 的 中 位 数 和 IQR 值 。 然 后 我 们 用 所 有 可 用 的 数据 来 进行 以 上 计算 ， 因 为 我 们 旨 
在 得 到 这 些 值 最 精确 的 估计 ， 从 而 能 够 正确 评价 模型 的 离 群 值 排序 能 力 。 因 为 全 局 信息 没有 传 
递 给 建 模 技术 ， 所 以 这 里 不 能 认为 是 从 测试 数据 给 出 信息 (避免 模型 和 测试 集 相关 )。 这 只 是 得 
到 模型 侦 测 异常 值 能 力 更 可 靠 的 估计 方式 。 


> notF «- which(sales$Insp != 'fraud') 
> <- tapply(sales$Uprice([notF], 
list (Prod=sales$Prod[notF]), 
function(x) { 
bp <- boxplot.stats(x)$stats 
c(median=bp [3] , igr=bp[4]-bp[2]) 
}) 
globalStats <- matrix(unlist(globalStats), 
length(globalStats),2,byrow-T, 
+ dimnames=list (names (globalStats) ,c('median' ,'igr'))) 
> globalStats [which(globalStats[,'igr']==0),'igr'] <- 
+  globalStats[which(globelStats[,'iqr']==0) ,'median'] 


holdOut() 函数 需要 调用 一 个 过 程 ， 从 而 给 实验 过 程 的 每 一 次 迭代 获得 和 评估 BPrule 方法 。 
在 前 面 几 章 中 的 交叉 验证 和 蒙特 卡 罗 实 验 中 ， 我 们 为 其 他 学 习 系统 建 立 了 类 似 的 用 户 函 数 。 这 
些 函 数 返 回 一 个 向 量 ， 其 值 为 给 定 训 练 集 和 测试 集 的 模型 评 佑 统计 量 的 值 。 这 次 我 们 需要 其 返 
回 更 多 的 信息 。 为 了 绘制 PR 图 ， 以 及 累积 回溯 精确 度 曲线 ，ROCR 添加 包 函 数 还 需要 知道 每 一 
个 测试 样本 观测 值 的 预测 值 和 真实 值 。 因 此 也 需要 函数 返回 这 些 数值 〈 预 测 值 和 真实 值 ) ， 以 便 
后 面 绘制 曲线 。4. 3. 2. 2 节 用 一 个 虚拟 的 小 例子 演示 了 绘制 图 形 所 要 应 用 的 信息 。 下 面 代码 给 出 
的 函数 将 在 holdOut() 中 调用 ， 它 将 返回 评价 统计 量 的 值 以 及 带 有 预测 值 和 真实 值 信 息 的 属性 。 


> ho.BPrule <- function(form, train, test, ...) { 
+ res <- BPrule(train,test) 
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+ structure(evalÜutlierRanking(test,res$rankÜrder,...), 

* itInfo=list (preds=res$rankScore, 

+ trueszifelse(test$Inspz-fraud',1,0) 
* ) 

+ ) 

+} 


大 多 数 RRA DARE. SERE, TAREA HRT AI AR — TOR, Tk 
些 附 加 对 象 给 前 一 个 对 象 额 外 信息 〈 例 如 维 数 等 ) 。 在 这 个 例子 中 ， 我 们 给 向 量 附 加 了 BPrule 方 
法 的 分 数 ， 它 含有 预测 分 数 和 预测 分 数 相 应 的 真实 值 。 哨 数 structure() 用 来 建立 一 个 对 象 并 指 
定 该 对 象 的 属性 值 。 这 些 属性 要 有 一 个 名 字 并 包含 一 个 R 对 象 。 这 里 我 们 用 structure( ) 函数 创 
建 一 个 带 有 itsInfo 属性 的 对 象 。 实 验 过 程 中 的 每 一 次 选 代 ，holdOut( ) 序数 保存 这 些 属性 信息 。 


138 * 数据 控 拥 与 R 语言 


为 了 存储 这 些 信 息 ， 需 要 调用 带 有 可 选择 参数 itsInfo =T 的 holdOut() 函数 。 这 样 就 能 确保 那些 
所 谓 的 “用 户 定 义 ” 的 函数 无 论 返 回 什 么 名 为 itsInfo 的 属性 结果 ， 它 们 都 会 被 收集 在 一 个 列表 
中 ， 并 且 返 回 为 一 个 带 有 itsInfo 属性 的 结果 作为 函数 holdOut() 的 结果 。 

我 们 已 经 准备 好 运行 holdOut( ) 函数 来 得 到 BPrule 系统 选 定 的 统计 量 的 值 。 我 们 将 会 使 用 
70% /30% 分 层 抽样 策略 来 对 整个 数据 集 进行 划分 ， 并 对 一 个 预先 定义 的 检验 限制 值 1096 来 计算 
决策 精确 度 和 回溯 精确 度 。 在 某 种 意义 下 ， 预 定义 的 1096 检验 限制 条 件 的 设 定 是 随意 的 ， 也 可 
以 选择 其 他 的 限制 值 。 该 系统 对 不 同 限 制 值 的 全 局 性 能 由 PR 和 累积 回潮 精确 度 曲 线 给 出 。 我 们 
将 对 以 上 实验 过 程 重 复 三 次 ， 基 于 此 得 到 保留 估计 。 


> bp.res <- holdÜut(learner('ho.BPrule', 
4 pars=list (Threshold=0.1, 
statsProds=globalStats)), 

dataset (Insp ^ .,sales), 
hldSettings(3,0.3,1234,T), 
itsInfo-IRUE 

* ) 

BLE PRK hidSettings() 的 第 四 个 参数 为 TRUE， 表明 使 用 分 层 随 机 抽样 。 其 他 参数 规定 了 重 
复 次 数 、 保 留 集 《hold-out) 个 案 所 占 的 百分比 、 随 机 数 种 子 等 。 


本 次 实验 结果 的 总 结 如 下 : 


> summary(bp.res) 
= Summary of a Hold Out Experiment == 


Stratified 3 x 70 %/ 30 4 Holdout run with seed = 1234 


+ 十 十 + 


*Dataset :: sales 

*Learner :: ho.BPrule with parameters: 
Threshold = 0.1 
statsProds = 11.34... 


*Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.016630574 0.52293272 1.87123901 
std 0.000898367 0.01909992 0.05379945 
min 0.015992004 0.51181102 1.80971393 
max 0.017657838 0.54498715 1.90944329 
invalid 0.000000000 0.00000000 0.00000000 


结果 的 决策 精确 度 和 回溯 精确 度 都 是 相当 低 的 。 平 均 只 有 5296 的 已 知 欺诈 包含 在 用 BPrule 
给 出 的 报告 欺诈 排序 的 前 10% 的 位 置 中 。 低 的 回潮 精确 度 意味 着 10% 的 检验 努力 可 能 不 能 包含 
所 有 的 欺诈 交易 ， 但 是 考虑 到 测试 集中 欺诈 的 比例 和 很 低 的 决策 精确 度 值 ， 这 是 不 正确 的 。 极 低 
的 回潮 精确 度 值 意味 着 该 方法 在 排序 的 顶部 大 部 分 放 人 的 是 unkn 或 者 ok 报告 。 考 虑 到 NDTP 的 
相对 高 分 值 ， 我 们 至 少 可 以 确定 这 些 顶 部 报告 的 单位 价格 和 标准 价格 是 不 相同 的 。 事 实 上 ， 
NDTP 的 平均 值 为 1.8， 意 味 着 同一 种 产品 报告 中 的 单位 价格 和 中 位 数 价 格 大 约 为 这 些 价 格 TOR 
(四 分 位 距 ) 的 1.8 倍 。 假 定 IOR 包括 50% 的 报告 ， 它 意味 着 这 些 交 易 是 很 异常 的 。 

为 了 获得 PR 图 和 累积 回 湖 精 确 度 图 ， 我 们 需要 有 方法 在 每 一 次 保留 (hold-out) 重复 上 的 
离 群 值 分 数 ， 以 及 真实 的 “类 ”标签 。 我 们 所 调用 的 函数 通过 应 用 每 一 次 迭代 (ho. BPrüle( ) ) 
的 排序 方法 返回 这 些 值 作为 统计 量 向 量 的 属性 。 函 数 holdOut() 把 每 一 次 迭代 得 到 的 这 些 额外 信 
息 收 集 在 一 个 列表 中 。 该 列表 作为 函数 holdOut( ) 产生 对 象 的 itsInfo 属性 返回 。 为 了 获得 绘图 函 
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数 所 要 求 的 格式 信息 ， 需 要 一 些 额 外 的 步骤 。 以 下 代码 的 结果 即 为 显示 在 图 4-7 中 的 曲线 。 


> par(mfrow=c(1,2)) 

> info <- attr(bp.res,'itsInfo') 

> PTs.bp <- aperm(array (unlist (info) ,dim=c(length(info[[1]]),2,3)), 
+ c(1,3,2) 

* ) 

> PRcurve(PTs.bp[,,1],PTs.bp[,,2], 


+ main='PR curve',avg='vertical') 
> CRchart(PTs.bp[,,1],PTs.bp[,,2], 
+ main='Cumulative Recall curve',avg='vertical') 


第 一 条 语句 把 图 窗口 分 成 两 个 ， 这 样 可 以 并 排 显示 两 个 可 视 化 图 形 。 第 二 条 语句 用 函数 attr ( ) 
提取 每 一 次 迭代 中 ho. BPmle( ) 返回 的 包含 预测 值 和 真实 值 信息 的 列表 。 这 个 函数 可 以 用 对 象 的 
任何 属性 名 来 获取 该 属性 的 信息 。 然 后 该 列表 被 转换 成 一 个 3 维 数 组 。 第 一 维 是 测试 个 案 ， 第 二 
维 是 保留 (hold-ou) 过 程 的 重复 次 数 ， 第 三 维 代表 数值 的 类 型 (1 是 预测 值 ，2 是 真实 值 )。 例 
W, {È PTs. bp[ 3,2,1 |] 代表 这 是 第 三 个 个 案 在 保留 (hold-out) 过 程 的 第 二 次 迭代 的 模型 预测 值 。 
函数 aperm() 可 以 用 来 变换 数组 的 维 数 。 如 果 理 解 这 个 复合 语句 有 困难 ， 可 以 试 着 单独 依次 运 
行 每 一 个 函数 ， 查 看 它 的 输出 结果 《用 取 结 果子 集 的 方法 来 避免 输出 量 过 大 ， 因 为 有 的 输出 对 
象 非常 大 ) 。 
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图 4-7 BPrule 方法 的 PRA (AB) 和 累积 回 湖 精 确 度 曲线 (AB) 


两 幅 曲 线 图 都 是 对 每 次 保留 (hold-out) 过 程 得 到 的 曲线 的 垂直 平均 。 累 积 回溯 精确 度 曲线 
给 出 了 这 个 方法 的 全 局 性 能 的 视图 。 我 们 可 以 看 到 在 很 低 的 检验 资源 下 这 个 方法 有 大 约 4096 的 
回 湖 精 确 度 。 但 是 ， 为 了 达到 80% 的 回溯 精确 度 ， 大 约 需 要 检验 25% ~30% HIRE. 

4.4.1.2 局 部 离 群 值 因子 

离 群 值 分 类 是 一 个 有 充分 研究 的 主题 。Breunig 等 (2000) 提出 了 局 部 离 群 值 因 子 ( Local 
Outlier Factor, LOF) 系统 ， 该 方法 被 认为 是 最 先进 的 离 群 值 排序 法 。 这 个 系统 的 主要 思想 是 试 
着 通过 估计 个 案 和 它 的 局 部 邻 域 的 分 离 程 度 来 得 到 该 个 案 的 离 群 值 分 数 。 这 个 方法 基于 观察 值 
的 局 部 密度 。 在 低 密度 区 域 的 个 案 被 视 为 离 群 值 。 个 案 的 密度 估计 值 是 通过 个 案 之 间 的 距离 来 
获得 的 。 作 者 定义 了 一 些 概念 并 导出 了 计算 每 个 点 的 离 群 分 数 的 算法 。 它 们 是 1) 一 个 点 的 中 
心 距离 概 念 ， 定 义 为 该 点 到 第 上 个 最 近邻 点 的 距离 ;2) 个 案 p, 和 个 案 p, 之 间 的 可 到 达 上 距离 iX 
距离 是 p, 的 中 心 距离 和 两 个 个 案 之 间距 离 的 最 大 值 ; 3) 一 个 点 的 局 部 可 到 达 距 离 ， 该 距离 反比 
于 个 可 到 达 距 离 的 平均 值 。 一 个 个 案 的 LOF 是 它 的 局 部 可 到 达 距 离 的 函数 。 
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本 书 的 添加 包 中 包括 了 基于 (Auna et al, 2009) 给 出 的 LOF 算法 的 一 个 实现 。 也 就 是 说 ， 
我 们 提供 了 函数 lofactor( ) ， 它 的 参数 是 一 个 数据 集 和 计算 个 案 LOF 时 用 于 指定 近邻 个 数 的 不 值 。 
LOF 的 实现 仅仅 限于 数据 集 为 数值 型 变量 。 实 际 上 这 也 是 很 多 模型 算法 的 常见 限制 。 就 像 我 们 看 
到 的 那样 ， 我 们 的 数据 集 包 括 了 多 个 名 义 变 量 ， 这 意味 着 我 们 不 能 直接 在 这 个 数据 集 上 应 用 该 
函数 。 有 多 种 方法 可 以 解决 这 个 困难 。 第 一 个 方法 改变 LOF 函数 的 源 代码 ， 使 它 应 用 混合 模式 
的 距离 。 有 多 个 距离 函数 可 以 计算 由 不 同类 型 变量 所 描述 的 个 案 间 的 距离 。 其 中 一 个 例子 是 添 
加 包 cluster 中 的 daisy() 函数 。 另 一 个 方法 对 名 义 变 量 重新 编码 ， 使 描述 观测 值 的 变量 全 部 为 连 
续 型 变量 。 任 何 有 个 可 能 取 值 的 名 义 变量 可 以 重新 编码 为 n -1 个 二 元 (0/1) 变量 。 在 我 们 
的 应 用 中 这 个 方法 是 有 问题 的 。 比 如 变量 ID 有 6016 个 可 能 值 ， 变 量 Prod 有 4546 个 可 能 值 ， 这 
就 意味 着 如 果 我 们 采用 了 这 个 策略 ， 那 么 数据 集 将 有 10 566 个 变量 。 相 比 于 原始 数据 ， 这 是 非 
常 荒唐 的 增加 量 。 所 以 这 个 方法 不 能 够 解决 我 们 这 里 的 问题 。 第 三 种 方法 单独 处 理 每 个 产品 ， 就 
像 用 BPrule 方法 那样 。 这 样 一 来 ， 不 仅 减 轻 了 处 理 这 个 问题 的 计算 机 要 求 ， 也 能 避免 应 用 Prod 


变量。 而且， 考虑 到 观测 值 之 间 的 不 同 ( 见 4.2.3.2 节 ) ， 分 开 处 理 产品 总 是 一 种 看 似 可 行 的 方 


式 。 因 此 ， 我 们 还 要 确定 怎么 处 理 销售 人 员 信息 〈 即 变量 ID)。 删 除 该 变量 意味 着 ， 我 们 认为 一 
些 异 常 报告 是 独立 于 它 的 销售 人 员 的 。 这 个 假设 看 起 来 并 不 很 具 风险 。 事 实 上 就 算 某 些 销售 人 
员 更 倾向 于 有 欺诈 行为 ， 它 依然 会 反映 在 他 报 出 的 单位 价格 上 。 这 种 情况 下 ， 和 采用 删除 这 两 列 
(变量 ID 和 变量 Prod). 并 分 别 对 符 每 一 种 产品 的 方法 比 对 变量 重新 编码 的 方法 看 起 来 更 合理 些 。 
总 之 ， 我 们 对 只 用 单位 价格 描述 的 报告 数据 集 应 用 LOF 算法 : 


> ho.LOF <- function(form, train, test, k, ...) {1 
+  ntr <- nrow(train) 
all «- rbind(train,test) 
N «- nrow(all) 
ups <- split(all$Uprice,all$Prod) 
r <- list (length=ups) 
for(u in seq(alongzups)) 
r[[u]] <- if (NROW(ups[[u]]) > 3) 
lofactor(ups[[u]],min(k,NROW(ups[[u]]) %/% 2)) 
else if (NROW(ups[[u]])) rep(0,NROW(ups[[u]])) 
else NULL 
all$lof «- vector(lengthzN) 
split(all$lof,all$Prod) «- r 
all$lof[which(!(is.infinite(all$1of) | is.nan(all$lof)))] <- 
SoftMax(all$lof[which(!(is.infinite(all$lof) | is.nan(all$1of)))]) 
structure(evalÜutlierRanking(test,order(all[(ntr*1):N,'lof'], 
decreasingzT),...), 
itInfo=list (preds=all[(ntr+1):N,'lof'], 
trues-ifelse(test$Insps-fraud',1,0)) 


4o o BR o BR BR GB BR BR G 9A 9B 4 4 M 4 + + 


+ 


+ } i 

上 述 函 数 得 到 了 在 训练 集 和 测试 集 上 应 用 LOF 方法 计算 出 的 评估 统计 量 。 我 们 的 方法 是 通 
过 合并 训练 集 和 测试 集 ， 用 LOF 方法 来 对 合并 后 的 所 有 报告 进行 排序 。 从 得 到 的 排序 中 ， 我 们 
选择 属于 测试 集 个 案 的 排序 分 数 。 我 们 可 以 只 对 测试 集 进 行 排序 ， 但 是 这 样 就 没有 用 上 训练 数 
据 的 信息 。 另 一 个 只 对 训练 集 数 据 排序 的 方法 也 是 没有 意义 的 ， 因 为 这 是 无 监督 的 方法 ， 其 结果 
不 能 用 来 对 测试 集 进行 预测 。 

PRA split( ) 把 全 部 数据 按照 产品 来 对 单位 价格 进行 分 割 。 分 割 的 结果 是 一 个 列表 ， 列 表 的 
元 素 为 相应 产品 的 单位 价格 。 其 中 的 for 循环 对 这 些 单位 价格 集合 进行 循环 ， 应 用 LOF 算法 来 得 
到 每 个 价格 的 一 个 离 群 值 因 了 于。 这 些 因子 被 收集 在 一 个 按照 产品 排列 的 列表 (r) 中 。 只 有 在 至 


第 4 章 MME: 141 


少 有 三 个 报告 时 ， 我 们 才 应 用 LOF 方法 ,否则 所 有 数值 被 标记 为 正常 (分数 为 0)。 在 主 循环 之 
后 ， 再 次 用 split( ) 函数 把 得 到 的 离 群 值 因 了 于 “添加 到 ”数据 框 all 中 的 相应 交易 中 。 下 一 条 语 
名 的 目的 在 于 将 离 群 值 因子 改变 为 0 ~ 1。 本 书 添加 包 中 的 旺 数 SoftMax() 即 为 实现 此 目的 。 这 
个 函数 把 一 群 值 “ 挤 压 ” 到 0 ~1 A, PRAT, PRB lofactor( ) 会 出 现 一 些 Inf 和 NaN (无 
穷 或 无 意义 ) 值 ， 基 于 这 个 事实 ,我 们 要 约束 SoftMax() 函数 的 使 用 。 最 后 ， 得 到 排序 的 评估 
分 数 ， 加 上 预测 值 和 真实 值 一 起 ， 作 为 该 函数 的 结果 返回 。 

下 一 步 就 是 就 像 之 前 对 BPrule 方法 那样 ， 用 一 个 保留 (hold-out). 过 程 来 获得 评价 指标 的 估 
计 值 。 我 们 已 经 用 了 和 之 前 一 样 的 设置 ， 特 别 是 用 了 同一 个 随机 数 生 成 器 种 子 来 确保 应 用 相同 
的 数据 分 割 。 我 们 设置 lofactor( ) 函数 中 参数 左 的 值 为 7。 可 以 执行 进一步 的 实验 来 调整 这 个 参 
数 。 当 执行 以 下 指令 之 前 ， 一 条 警告 是 : 取决 于 计算 机 硬件 ， 尽 管 是 以 分 钟 计算 ,但 完成 下 面 的 
代码 可 能 要 用 很 长 的 时 间 。 

> lof.res <- holdÜut(learner('ho.LOF', 


+ pars=list (k=7, Threshold=0. 1, 

+ statsProds-globalStats)), 
* dataset(Insp ^ .,sales), 

十 hldSettings(3,0.3,1234,T), 

+ itsInfo=TRUE 

+ ) 

LOF 方法 的 结果 如 下 : 


> summary(lof.res) 
== Summary of a Hold Out Experiment == 


Stratified 3 x TO %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 
* Learner :: ho.LOF with parameters: 
k = 了 


Threshold = 0.1 
statsProds = 11.34 


让 Summary of Experiment Results: 


Precision Recall avgNDTP 
ave 0.022127825 0.69595344 2.4631856 
std 0.000913681 0.02019331 0.9750265 
min 0.021405964 0.67454068 1.4420851 
max 0.023155089 0.71465296 3.3844572 
invalid 0.000000000 0.00000000 0.0000000 


你 可 以 观察 到 ， 对 于 10% 的 检验 限制 ， 决 策 精 确 度 和 回 湖 精 确 度 均 高 于 BPrule 方法 得 到 的 
结果 。 特 别 指出 的 是 ， 回 溯 精 确 度 的 值 已 从 52% 增加 到 6996 。 此 外 ， 这 是 伴随 着 NDTP 平均 值 
的 增加 (从 1. 8 增加 到 2.4)。 

可 以 通过 PR 和 累积 回 湖 精确 度 曲线 得 到 一 个 更 加 全 局 的 视角 。 为 了 更 好 地 与 BPrule 方法 比 
较 ， 我 们 也 绘制 这 种 方法 的 上 述 两 条 曲线 ， 使 用 参数 add =T， 使 得 多 条 曲线 出 现在 同一 个 图 形 
上 ， 如 图 4-8 所 示 。 


> par (mfrow=c(1,2)) 
> info <- attr(lof.res,'itsInfo') 
> PTs.lof <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 
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c(1,3,2) 
) 

PRcurve(PTs.bp[,,1],PTs.bp[,,21], 

main='PR curve',lty=1,xlim=c(0,1),ylim=c(0,1), 

avg='vertical') 
PRcurve(PTs.1lof[,,1],PTs.lof[,,2], 

add-T, 1ty-2, 

avg='vertical') 
legend ('topright',c('BPrule' ,'LOF’), 1ty=c(1,2)) 
CRchart(PTs.bp[,,1],PTs.bp[,,2], 

main-'Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 

avgz'vertical') 
CRchart(PTs.lof[,,1],PTs.lof[,,2], 

add-T,lty-2, 

avg='vertical') 
legend ('bottomright',c('BPrule' ,'LOF') ,1ty=c(1,2)) 


v+ Fo VW +t tVvVt + Vo + Vo OF 


PR curve Cumulative Recall curve 


Average recall: 
0.4 0.6 


0.2 


0.0 





0.0 0.2 0.4 0.8 0.8 1.0 





Average rate of positiva predictions 


图 4-8 LOF 方法 和 BPrule 方法 的 PR 图 (AA) RS ER IER GR BE HE AR) 


对 PR 曲线 的 分 析 (图 4-8 左 图 ) 说 明 ， 对 于 较 小 的 回溯 精确 度 值 ，BPrule 方法 通常 达到 相 
SRNR RE. HTA 40% 的 回 湖 精 确 度 值 ， 虽 然 没 有 那么 明显 的 差异 ， 但 趋势 则 相反 。 
就 检验 限 值 所 达到 的 决策 精确 度 而 言 (图 4-8 的 右 图 )， 可 以 说 ， 对 低 于 2596 ~ 30% 的 检验 限 
值 ， 通 常 LOF 方法 要 优 于 BPrule 方法 。 对 于 高 的 检验 限 值 ， 两 者 的 差别 就 不 是 那么 明显 了 ， 它 
们 的 结果 相差 不 太 大 。 鉴 于 该 公司 的 兴趣 在 于 以 较 低 的 检验 努力 〈 较 低 的 检验 限 值 ) 来 降低 成 
本 (假设 获得 了 一 个 好 的 回 泊 精 确 度 ) ， 我 们 会 对 LOF 方法 更 有 兴趣 。 事 实 上 ， 对 于 大 约 15% ~ 
20% 的 检验 限 值 ， 大 约 能 侦 测 70% ~ 8096 的 诈骗 行为 。 此 外 ， 我 们 应 该 注意 到 对 于 10% 的 检验 
[203 | 限 值 ，LOF 方法 的 NDTP 值 明显 高 于 BPrule 方法 。 
on 4.4.1.3 基于 聚 类 的 离 群 值 排名 
我 们 考虑 的 下 一 个 离 群 值 排 名 方法 是 基于 聚 类 算法 的 结果 。 基 于 聚 类 的 离 群 值 排 名 (OR,) 
方法 (Torgo，2007) 采用 分 层 聚 类 法 获得 一 个 给 定数 据 集 的 聚 类 树 。 始 类 树 是 这 些 依 类 算法 合 
并 过 程 的 可 视 化 表示 。 对 这 些 树 在 不 同 高 度 水 平 进行 切割 时 将 给 出 数据 的 不 同 育 类 。 在 最 低 水 
平 ， 得 到 的 类 数 将 与 训练 集中 观测 值 的 个 数 相同 。 它 是 这 些 聚 类 迭代 方法 的 初始 解 。 然 后 该 算法 
把 前 面 步骤 中 得 到 的 某 两 个 类 合并 为 一 个 类 。 这 一 合并 过 程 遵 循 把 更 相似 的 类 合并 在 一 起 的 原 
则 。 当 最 后 的 两 个 类 合并 为 一 个 由 所 有 观测 值 组 成 的 类 时 ， 和 迭代 过 程 停止 。 聚 类 树 描 述 了 整个 合 
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并 的 过 程 。 基 础 包 stats 中 的 函数 helust( ) 实现 了 这 种 类 型 聚 类 的 几 个 变 体 。 这 个 函数 返回 的 对 

象 包括 一 个 数据 结构 (merge) ， 该 结构 包括 每 个 合并 步骤 涉及 的 那些 个 案 的 信息 。OR, 方法 以 这 

个 数据 结构 的 信息 为 基础 进行 下 面 的 离 群 值 排序 。 主 要 的 思想 法 是 ， 离 群 值 应 该 不 易于 合并 ， 因 

此 当 它 们 最 终 被 合并 时 ， 它 们 合并 前 所 属 类 的 大 小 和 它们 被 合并 进去 的 类 的 大 小 应 该 相差 很 大 。 

这 也 反映 了 离 群 值 和 其 他 观测 值 是 很 不 相同 的 。 因 此 把 它们 包含 在 含有 更 多 “正常 ”观测 值 的 
类 中 将 明显 地 降低 结果 组 的 相同 性 。 少 数 时 候 ， 离 群 值 与 其 他 观测 值 的 合并 发 生 在 初始 阶段 ， 但 

这 只 限于 类 似 的 离 群 值 。 否 则 ， 它 们 只 会 在 聚 类 过 程 的 后 期 合并 。 通 常 的 情况 是 与 一 个 更 大 的 类 
合并 。 这 是 OR, 方法 所 采用 的 总 体 思 路 。 这 种 方法 用 下 面 方 法 来 计算 每 一 个 个 案 的 离 群 值 分 数 。 

对 于 每 一 个 合并 两 个 组 (g,, 和 g,;) MBIA, 计算 以 下 值 : 


zs |- le | _ 
of; (x) = max(0, rar rT) ai 


其 中 ，g, Ær FRA, Wile, | 是 该 组 的 大 小 。 请 注意 ， 因 为 我 们 感 兴趣 的 是 较 小 的 组 ， 所 
以 参与 合并 的 两 个 组 中 较 大 组 的 成 员 离 群 值 分 数 将 被 感 为 0。 在 分 层 聚 类 算法 的 整个 迭代 过 程 
中 ,每 个 观察 值 可 以 参与 多 个 合并 过 程 ， 有 时 是 较 大 组 的 成 员 ， 有 时 是 较 小 组 的 成 员 。 数 据 集 的 
每 个 个 案 的 最 终 离 群 值 分 数 由 下 式 给 出 : 

OF,(x) = max of, (x) (4-4) 


AK BSH PAR outliers. ranking() ALKIRE MMR. FRA PS CLR] OR, 方法 来 获取 
测试 集中 个 案 的 离 群 值 分 数 和 通常 的 性 能 评价 统计 量 : 


> ho.ORh <- function(form, train, test, ...) ( 
+ ntr <- nrow(train) 
all <- rbind(train,test) 
N <- nrov(all) 
ups <- split(all$Uprice,all$Prod) 
r <- list(length=ups) 
for(u in seq(along-ups)) 
r[[u]] <- if (NROW(ups[[u]]) > 3) 
outliers.ranking(ups[[u]])$prob.outliers 
else if (NROW(ups[[u]])) rep(O,NROW(ups[[u]])) 
else NULL 
all$orh <- vector(lengthzN) 
split(all$orh,all$Prod) «- r 
all$orh[which(!(is.infinite(all$orh) | is.nan(all$orh)))] <- 
SoftMax(all$orh[which(!(is.infinite(all$orh) | is. nan (all$orh)))J) 
structure (evalOutlierRanking(test,order(all[(ntr+1):N, aaa i 
decreasing=T),.. 
itInfo-list(preds-all[(ntr*1):N,'orh'], 
trues=ifelse(test$Insp=="'fraud',1,0)) 
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) 
+ } 
PaaS AY LOF 方法 很 类 似 。 我 们 再 次 使 用 这 个 方法 来 对 产品 逐个 进行 处 理 ， 主 要 是 

出 于 与 之 前 在 LOF PEP AMR A. Pi, Pa outliers. ranking( ) 的 参数 可 以 接收 要 排序 

的 观测 值 的 距离 和 矩阵， 而 不 是 数据 集 。 这 就 是 说 ， 我 们 可 以 使 用 任何 可 以 处 理 混合 模式 数据 的 距 

离 函 数 来 得 到 上 距离 矩阵 〈 例 如 ， 添 加 包 cluster 的 daisy() 函数 )。 但 是 ， 如 果 你 决定 尝试 这 一 

点 ， 由 于 上 聚 类 这 样 大 的 数据 集 将 要 求 大 量 的 内 存 和 快速 的 处 理 器 ， 所 以 你 将 需要 大 量 的 计算 资 

源 ， 如 集群 等 。 即 使 使 用 这 种 方法 对 每 一 种 产品 单独 处 理 ， 但 在 任何 正常 的 计算 机 上 运行 下 面 全 

部 保留 (hold-out) 实验 的 代码 肯定 需要 一 段 较 长 时 间 。 
与 LOF 方法 类 似 ， 我 们 没有 深入 探索 OR, 方法 的 几 个 参数 值 ， 只 是 简单 地 接受 其 默认 设置 : 


1 和， 数据 挖 拥 与 R 语言 


> orh.res <- holdOut (learner (‘ho.ORh', 

" pars=list (Threshold=0.1, 

+ statsProds=globalStats)), 
+ dataset(Insp ~ .,sales), 

+ hldSettings(3,0.3,1234,T), 

+ itsInfozTRUE 

+ 2 


对 OR, 方法 的 结果 总 结 如 下 : 


> summary (orh.res) 
== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 X Holdout rum with seed = 1234 


* Dataset :: sales 

* Learner :: ho.ORh with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Resulta: 


Precision Recall avgNDTP 
avg 0.0220445333 0.69345072 0.5444893 
std 0.0005545834 0.01187721 0.3712311 
min 0.0215725471 0.67979003 0.2893128 
max 0.0226553390 0.70133333 0.9703665 
invalid 0.0000000000 0.00000000 0.0000000 


OR, 系统 的 决策 精确 度 和 回潮 精确 度 与 BPrule 方法 和 LOF 方法 非常 相似 。 对 于 平均 NDTP 
值 而 言 ， 其 结果 大 大 低 于 其 他 两 个 方法 。 
该 方法 的 PR 和 累积 回溯 精确 度 曲线 ， 以 及 以 前 得 到 的 其 他 无 监督 方法 的 曲线 ， 如 图 4-9 所 
示 。 下 面 的 代码 是 用 来 生成 这 些 图 形 。 


> par(mfrowsc(1,2)) 
> info <- attr(orh.res,'itsInfo') 
> PTs.orh <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 


* c(1,3,2) 

* ) 

» PRcurve(PTs.bp[,,1],PTs.bp[,,2], 

* main='PR curve',ltysi1,xlim-c(0,1),ylimsc(0,1), 
十 avg=' Vertical') 

> PReurve(PTs.lof[,,1],PTs.lof[,,2], 

* add-T,lty-2, 

+ avg='vertical') 

> PRcurve(PTs.orh[,,1],PTs.orh[,,2], 

+ addeT,lty-z1,cols'grey', 

* avg='vertical') 

> legend(topright',c(BPrule','LOF','ORh'), 

+ lty=c(1,2,1),col=c('black','black','grey')) 

> CRchart (PTs.bp[,,1],PTs.bp[,,2], 

+ main='Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
+ avg=' vertical') 

> CRchart (PTs.lof[,,1],PTs.lof[,,2], 

+ add«T, 1ty=2, 


+ avg='vertical') 
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> CRchart(PTs.orh[,,1],PTs.orh[,,2], 
* add=T, lty=1,col='grey', 
avg='vertical') 
> SR c( BPrule','LOF','ORh') ， 
* lty=c(1,2,1),col=c('black','black','grey')) 


IESIMAR RI EUR SI, RRR ARE Ma, OR, TNA LOF 方法 相 比 。 然 而 ， 对 
T PR 曲线 ，OR, 方法 明显 优 于 LOF 方法 ， 以 较 小 的 优势 超过 BPrule 方法 。 





0.0 0.2 0.4 0.8 0.8 1.0 
Average recall Average rais of positive predictions 


图 4-9 OR,, LOF 以 及 BPrule 方法 的 PR 图 (AA) uS Bielsa SHE ( 右 图 ) 


4.4.2 有 监督 方法 

在 本 节 中 我 们 探讨 一 些 解决 本 章 案例 的 有 监督 分 类 方法 。 考 虑 到 我 们 的 目标 是 获得 一 组 交 
易 报 告 的 排序 ， 我 们 将 有 约束 地 选择 模型 。 我 们 将 只 使 用 能 够 产生 概率 分 类 的 模型 。 对 于 每 个 测 
试 案例 ， 这 些 模型 将 输出 它 属 于 每 一 个 可 能 类 的 概率 。 这 些 信息 将 使 我 们 能 够 根据 测试 集 案 例 
属于 “目标 ”类 〈 即 欺诈 报告 ) 的 概率 来 对 它们 进行 排序 。 

在 描述 我 们 将 要 用 到 的 一 些 具体 分 类 算法 之 前 ， 先 讨论 数据 集 所 特有 的 问题 ， 类 标签 分 布 
失衡 。 

4.4.2.1 类 失衡 问题 

我 们 数据 集 的 正常 报告 和 欺诈 报告 的 比例 很 不 平衡 。 后 者 明显 是 少数 ， 大 约 只 占 到 检验 报告 
( 即 有 监督 的 个 案 ) 的 8.1%。 这 种 类 型 的 问题 可 以 导致 预测 模型 建 模 过 程 中 的 各 种 困难 。 首 先 ， 
它们 需要 合适 的 评价 指标 ， 因 为 众所周知 标准 的 精确 度 (或 者 它 的 对 立 面 ， 错 误 率 ) 在 这 些 领 域 
是 明显 不 够 的 。 事 实 上 ， 在 我 们 的 应 用 中 ,如果 预测 所 有 报告 为 正常 报告 将 会 很 容易 地 获得 
90% 左右 的 决策 精确 度 。 由 于 该 类 占 大 多 数 ， 所 以 它 将 给 我 们 显得 非常 高 的 决策 精确 度 水 平 。 类 
失衡 导致 的 另 一 个 问题 是 ， 它 会 强烈 地 影响 学 习 算 法 的 性 能 ， 算 法 由 于 少数 类 缺乏 统计 支持 而 忽视 
它们 。 如 果 少 数 类 恰恰 是 最 相关 的 类 ， 就 像 我 们 的 案例 一 样 ， 那 么 失衡 导致 的 问题 尤其 严重 。 

有 多 种 有 助 于 学 习 算 法 克服 类 失衡 问题 的 技术 。 它 们 一 般 分 为 两 类 : 1) 偏 置 学 习 过 程 的 方 
法 ， 它 应 用 特定 的 对 少数 类 更 敏感 的 评价 指标 ; 2) 用 抽样 方法 来 操作 训练 数据 ， 从 而 改变 类 的 
分 布 。 我 们 尝试 使 用 的 有 监督 分 类 方法 属于 第 二 类 方法 。 

有 多 种 抽样 方法 用 于 改变 数据 集中 类 的 失衡 。 一 种 抽样 方法 是 欠 采 样 法 ， 它 从 多 数 类 中 选择 一 
小 部 分 个 案 ， 并 把 它们 和 少数 类 个 案 一 起 构成 一 个 有 更 加 平衡 的 类 分 布 的 数据 集 。 另 一 种 是 过 采样 
方法 ， 它 采用 另外 的 工作 模式 ， 使 用 某 些 进程 来 复制 少数 类 个 案 。 有 许多 上 述 两 种 采样 方法 的 变 
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体 。 一 个 成 功 的 例子 是 SMOTE 方法 (Chawla et al. , 2002) 。 这 种 方法 的 思路 是 用 少数 类 个 案 的 最 
近邻 居 来 人 工 产 生 少 数 类 的 个 案 。 此 外 ， 多 数 类 的 个 案 仍 然 采 用 欠 抽 样 方 法 。 这 样 就 得 到 了 一 个 
更 加 平衡 的 数据 集 。 本 书 添加 包 中 的 函数 SMOTE() 已 经 实现 了 这 种 抽样 方法 。 基 于 失衡 的 样 
本 ,该 函数 生成 一 个 有 更 加 平衡 类 分 布 的 新 数据 集 。 下 面 的 代码 给 出 了 它 的 一 个 简单 示例 ; 

> data(iris) 

> data <- iris[, c(1, 2, 5)] 

> data$Species <- factor(ifelse(data$Species == "setosa", "rare", 

* "common" ) ) 

> newData <- SMOTE(Species ^ ., data, perc.over = 600) 

> table(newData$Species) 


common rare 
600 350 


这 个 小 例子 使 用 iris 数据 创建 一 个 有 两 个 预测 变量 (为 易于 可 视 化 ) 和 一 个 新 的 目标 变量 的 
人 工 数据 集 ， 它 有 失衡 的 类 分 布 。 该 代码 用 参数 perc. over 的 值 600 调用 函数 SMOTE( ) ， 这 意味 
着 将 为 初始 数据 集 少 数 类 的 每 个 个 案 产 生 6 个 新 样本 。 这 些 新 样本 采用 对 初始 个 案 和 其 最 近邻 居 
(默认 情况 下 为 5) 的 某 种 形式 的 随机 插值 方式 产生 。 我 们 的 实现 采用 混合 模式 的 距离 函数 ， 所 
以 可 以 在 SMOTE( ) 函数 中 应 用 同时 含有 连续 变量 和 名 义 变量 的 数据 集 。 

可 以 通过 绘制 原始 数据 集 和 SMOTE 方法 得 到 数据 集 ， 从 而 了 解 该 方法 。 下 面 代 码 的 结果 如 
图 4-10 所 示 。 


> par(mfrow = c(1, 2)) 

> plot(data[, 1], data[, 2], pch = 19 + as.integer(data[, 3]), 

* main = "Original Data") 

> plot(newData[, 1}, newData[, 2], pch = 19 + as.irteger(newData[, 
+ 3]), main = "SMOTE'd Data") 


在 有 监督 分 类 算法 的 实验 中 ， 我 们 将 应 用 SMOTE 方法 给 出 的 平衡 训练 集 来 尝试 不 同方 法 的 变 体 。 


Original Data . SMOTE'd Data 





: ; 
$ 3 i 3 
45 50 55 &0 65 70 7.5 B.0 45 En 55 6.0 6.5 70 T5 ü 
data[, 1] newData[, 1] 
图 4-10 JH SMOTE 方法 产生 少数 类 的 个 案 
类 失衡 的 参考 文献 


类 失衡 是 一 个 充分 研究 的 课题 。 在 几 个 这 一 特定 主题 的 研讨 会 有 这 个 课题 研究 的 例子 ， 如 
美国 AAAT2000 和 ICML2003 的 失衡 数据 集 研 讨 会 ， 或 SIGKDD 的 失衡 数据 集 学 习 算 法 中 的 特殊 
问题 (Chawla et al. , 2004), Chawla (2005) 给 出 了 一 个 很 好 的 现 有 工作 的 概述 。 和 失衡 类 影响 了 
预测 模型 的 多 个 相关 主题 。 例 子 包 括 预测 模型 的 评价 (例如 ，Provost 和 Fawcett (1997, 2001); 
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Provost et al. (1998) ), ， 或 成 本 敏感 学 习 【〈 例 如，Domingos (1999); Drummond 和 Holte (2006) ; 
Elkan (2001))。 关 于 类 失衡 的 采样 方法 ， 有 些 参 者 文献 包括 Kubat 和 Matwin (1997), Japkowiez 
(2000) 以 及 Weiss 和 Provost (2003)。 特 别 是 SMOTE 方法 的 主要 参考 文献 是 Chawla et al. (2002) 
fe Chawla et al. (2003), 

4.4.2.2 简单 贝 叶 斯 方法 

简单 贝 叶 斯 (Naive Bayes) 方法 是 基于 贝 叶 斯 定理 的 一 种 统计 分 类 方法 ， 该 理论 应 用 到 预测 
变量 之 间 独 立 这 一 很 强 的 假设 条 件 。 这 些 假设 在 实际 问题 中 是 很 难 成 立 的 ， 所 以 该 方法 名 为 
“简单 ” 。 然 而 ， 该 方法 还 是 很 成 功 地 应 用 于 大 量 的 实际 问题 。 


贝 叶 斯 定理 假设 P(A |B) -PELOR 简单 贝 叶 斯 分 类 应 用 这 个 定理 来 计算 给 定 测试 


P(B) 
集 个 案 条 件 下 的 类 概率 : 
P(c) P(X, ,---,X, le) 
P(X, X.) 
这 里 c 是 一 个 类 ， X,, co, X, 是 给 定 测试 集 的 预测 变量 的 观测 值 。 211 
概率 P(c) 可 以 视 为 类 c 的 先 验 预期 ， 而 已 (X,, --, X lc) 则 是 在 给 定 类 c 的 条 件 下 测试 
个 案 的 似 然 概 率 。 最 后 ,分 母 是 观测 到 的 证 据 的 概率 。 由 于 分 母 对 所 有 类 都 是 常数 ， 所 以 决策 仅 
仅 取 决 于 方程 中 的 分 子 。 应 用 条 件 概率 的 统计 定义 和 预测 变量 间 独 立 的 条 件 假 设 (简单 的 ) ， 推 
导出 分 式 中 的 分 子 为 : 





P(e | 和 ) 一 (4-5) 


P(e) P(X, X, le) = P(e) [] P(X, le) (4-6) 


简单 贝 叶 斯 方法 用 训练 集 样本 的 相对 频率 来 估计 这 些 概 率 。 应 用 这 些 估计 值 ， 该 方法 按照 
式 (4-5) 来 输出 每 一 个 测试 个 案 的 类 概率 。 

R 有 多 个 简单 贝 叶 斯 方法 的 实现 。 我 们 将 应 用 添加 包 e1071 中 的 函数 naiveBayes( ) 。 添 加 包 
klaR (Weihs et al. , 2005) 也 包含 了 贝 叶 斯 分 类 的 实现 ， 同 时 还 提供 了 有 趣 的 可 视 化 函数 。 

下 面 的 函数 用 简单 贝 叶 斯 方法 得 到 测试 集 报告 的 离 群 值 排序 分 数 。 它 应 用 给 定 的 训练 集 样 
本 中 检验 过 的 报告 来 得 到 简单 贝 叶 斯 分 类 模型 。 通 过 估计 属于 类 fraud 的 概率 来 得 到 离 群 值 排序 : 


> nb <- function(train, test) { 
* require(e1071, quietly - T) 


+ sup <~ which(train$Insp != "unkn") 

+ data <- train[sup, c("ID", "Prod", "Uprice", "Insp")] 

* data$Insp «- factor(data$Insp, levels = c("ok", "fraud")) 

* model <- naiveBayes(Insp ^ ., data) 

* preds <- predict(model, test[, c("ID", "Prod", "Uprice", 

* "Insp")], type = "raw") 

* return(list(rankÜrder = order(preds[, "fraud"], decreasing = T), 
* rankScore = preds[, "fraud"])) 

+} 

下 面 的 函数 将 被 保留 (hold-out) 例 程 调用 ， 得 到 简单 贝 叶 斯 预测 的 选 定 的 统计 评价 指标 : 
> ho.nb «- function(form, train, test, ...) ( 

+ res <--nb(train,test) 

+  structure(evalOutlierRanking(test,res$rankÜrder,...), 

+ itInfo=list (preds=res$rankScore, 

十 trues=ifelse(test$Insp=="'fraud',1,0) 

+ 

+ ) 

+ } 


fa, WHARA holdOut( ) ， 采 用 和 前 面 无 监督 模型 相同 的 设置 来 对 这 个 模型 进行 实验 : 
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> nb.res <- holdÜut(learner('ho.nb', 
pars=list (Threshold=0.1, 
statsProds=globalStats)), 
dataset(Insp ~ .,sales), 
hldSettings(3,0.3,1234,T), 
itsInfo=TRUE 
) 


对 于 10% Haas 7], Ta AR LOT PRR BU AGORA F : 


> summary (nb.res) 


二 十 十 二 十 十 


== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


« Dataset :: sales 

* Learner :: ho.nb with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall avgNDIP 
avg 0.013715365 0.43112103 0.8519657 
std 0.001083859 0.02613164 0.2406771 
min 0.012660336 0.40533333 0.5908980 
max 0.014825920 0.45758355 1.0650114 
invalid 0.000000000 0.00000000 0.0000000 


得 到 的 分 数 大 大 低 于 前 面 用 无 监督 方法 得 到 的 最 优 分 数 。 
下 面 我 们 绘制 和 前 面 一 样 的 曲线 ， 以 得 到 该 模型 性 能 的 整体 视图 。 我 们 把 简单 贝 叶 斯 方法 
和 最 好 的 无 监督 方法 ，OR; ， 进 行 比较 : 


par(mfrowzc(1,2)) 
info <- attr(nb.res,'itsInfo') 
PTs.nb <- aperm(array (unlist (info) ,dim=c(length(info[[1]]),2,3)), 
c(1,3,2) 
) 
PRcurve(PTs.nb[,,1],PTs.nh[,,2], 
main='PR curve',lty=1,xlin=c(0,1),ylim=c(0,1), 
avgz'vertical!) 
PRcurve(PTs.orh[,,1],PTs.orh[,,2], 
add=T, 1lty=1,col='grey', 
avg='vertical') 
legend (‘topright',c('NaiveBayes','ORh'), 
1lty=1,col=c('black','grey')) 
CRchart (PTs.nb[,,1],PTs.nb[,,2], 
main='Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRchart(PTs.orh[,,1],PTs.orh[,,2], 
add=T, lty=1,col='grey', 
avg='vertical') 
legend ('bottomright',c('NaiveBayes','ORh'), 
lty=1,col=c('black' ,'grey')) 


图 4-11 所 示 的 图 形 表 明 简 单 贝 叶 斯 方法 明显 不 如 OR, 方法 好 。 两 个 图 形 都 说 明 后 者 在 所 有 
的 情况 下 都 优 于 前 者 。 


+ Vt + Ve t+ Vt vVtt vttv +t wv Vv 
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导致 简单 贝 叶 斯 方法 性 能 差 的 一 个 可 能 原因 是 问题 的 类 失衡 。4. 4. 2. 1 节 给 出 了 几 个 解决 类 
失衡 问题 的 方法 ， 特 别 是 SMOTE 算法 。 下 面 通 过 SMOTE 来 获得 一 个 训练 集 ， 然 后 再 应 用 贝 叶 斯 


分 类 方法 。 
下 面 的 函数 和 之 前 函数 的 主要 不 同 之 处 在 于 下 面 的 函数 对 函数 naiveBayes( ) WH, RE | 
用 了 一 个 修改 过 的 训练 集 : 


> nb.s «- function(train, test) { 


* require(el071, quietly = T) 

* sup <- which(train$Insp != "unkn") 

+ data <- train[sup, c("ID", "Prod", "Uprice", "Insp")] 

+ data$Insp <- factor(data$Insp, levels = c("ok", "fraud")) 
+ newData «- SMOTE(Insp ^ ., data, perc.over = 700) 

* model «- naiveBayes(Insp ~ ., newData) 

* preds <- predict(model, test[, c("ID", "Prod", "Uprice", 
* "Insp")], type = "raw") 

* return(list(rankOrder = order(preds[, "fraud"], decreasing = T), 
十 rankScore = preds[, "fraud"])) 

+ } 





00 (02 04 06 08 10 00 02 O04 po^ 08 10 
Average recall Average rate of positive predictions 
PA 4-11 简单 贝 叶 斯 方法 和 OR, 方法 的 PR 图 (AR) 和 累积 回调 精确 度 曲线 (AB) 


下 面 的 语句 获得 对 简单 贝 叶 斯 SOMTE 版 本 模型 的 保留 (hold-out) 估计 ， 


> ho.nbs <- function(form, train, test, ...) { 

* res «- nb.s(train,test) 

+  structure(evalOutlierRanking(test,res$rankOÜrder,...), 

* itInfo=list (preds=res$rankScore, 

+ trues=ifelse(test$Insp=='fraud',1,0) 
+ ) 

+ 

+} 

> nbs.res <- hold0ut (learner ('ho.nbs', 

+ pars=list(Threshold=0.1, 

+ statsProds=globalStats)), 
+ dataset (Insp ^ .,sales), 

+ hidSettings(3,0.3,1234,T), 

* itsInfozTRUE 

* J 
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对 于 10% 的 检验 努力 ， 这 个 版 本 的 简单 贝 叶 斯 模型 的 结 采 如 下 : 
^ summary (nbs.res) 


== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.nbs with parameters: 
Threshold = 0.1 
statsProds = 11.34 

* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.014215115 0.44686510 0.8913330 
Btd 0.001109167 0.02710388 0.8482740 
min 0.013493253 0.43044619 0.1934613 
max 0.015492254 0.47814910 1.8354999 
invalid 0.000000000 0.00000000 0.0000000 


这 些 纺 果 和 “ 正 肖 ”的 简单 贝 叶 斯 方法 几乎 相差 不 大 。 得 分 仅仅 稍微 好 一 些 ， 仍 然 和 无 监 
督 模型 的 最 好 结果 相差 很 远 。 它 看 起 来 尽管 用 SMOTE 方法 对 少数 类 进行 了 过 采样 ， 但 简单 贝 叶 
斯 方法 仍然 不 能 正确 预测 哪些 报告 是 有 欺诈 的 。 和 前 面 一 样 ， 下 面 绘制 这 个 方法 的 两 个 曲线 图 
来 得 到 该 方法 全 局 性 能 的 全 局 视角 。 


> par (mfrow=c(1,2)) 
> info <- attr(nbs.res,'itsInfo') 
PTs.nbs <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 
c(1,3,2) 
) 
PRcurve(PTs.nb[,,1],PTs.nb[,,2], 
main='PR curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
PRcurve(PTs.nbs[,,1],PTs.nbs[,,2], 
add=T, 1ty=2, 
avg-'vertical!) 
PRcurve(PTs .orh[,,1] , PTs.orhí,,2], 
add=T, lty=1,col='grey', 
avg='vertical') 
legend ('topright',c('NaiveBayes','smoteNaiveBayes','ORh'), 
1ty=c(1,2,1),col=c('black','black' ,'grey')) 
CRchart (PTs.nb[,,1],PTs.nb[,,2], 
main-'Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRchart(PTs.nbs[,,1],PTs.nbs[,,2], 
add=T, lty=2, 
avg*'vertical') 
CRchart (PTs.orh[,,1],PTs.orh[,,2], 
add-T,ltyz1,col-'grey!, 
avgz vertical!) 
legend( bottomright',c('NaiveBayes','smoteNaiveBayes','ORh'), 
lty=c(1,2,1),col=c('black','black' ,'grey')) 


4-12 确认 了 这 个 SMOTE 版 本 的 简单 贝 叶 斯 方法 令 人 失望 的 结果 。 事 实 上 ， 它 说 明 与 OR， 


网 方法 相 比 ， 它 和 “标准 ”简单 贝 叶 斯 方法 有 同样 差 的 结果 ,而且 它 的 性 能 总 是 不 如 标准 的 贝 叶 
216 | 斯 方法 好 。 
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基于 这 些 结果 ， 读 者 可 能 问 ， 这 里 为 什么 没有 和 前 面 的 无 监督 方法 一 样 ， 按 照 独立 的 产品 来 
建立 模型 ， 也 许 这 就 是 问题 所 在 呢 。 作 为 练习 ， 你 可 以 按照 这 种 思路 来 运行 简单 贝 叶 斯 模型 。 你 
需要 做 的 就 是 按照 前 面 无 监督 模型 中 代码 所 做 的 ， 按 照 产品 来 分 割 交 易 ， 然 后 应 用 简单 贝 叶 斯 
模型 。 如 果 你 进行 这 个 练习 ， 你 将 遇 到 的 一 个 额外 困难 是 有 太 少 的 产品 监督 报告 。 事 实 上 ， 即 使 
没有 有 标记 这 一 限制 ， 我 们 还 是 可 以 看 到 多 个 产品 有 太 少 的 交易 。 如 果 加 上 了 有 标记 的 交易 这 
一 限制 条 件 ， 这 个 问题 肯定 会 更 严重 。 
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Average recall Average rate of positive predictions 
图 4-12 ”两 个 版 本 的 简单 贝 叶 斯 方法 和 OR, 方法 的 PR 图 (AA) 和 累积 回潮 精确 度 曲线 〈 右 图 ) 
简单 贝 叶 斯 方法 的 参考 文献 


简单 员 叶 斯 方法 是 许多 研究 领域 很 有 名 的 分 类 算法 。 该 主题 的 其 他 参考 资料 包括 Domingos 
和 Pazzani (1997) 的 文章 ，Rish (2001) 的 文章 ，Hand 和 Yu (2001) 的 文章 以 及 Kononenko 
(1991) 的 文章 。 

4.4.2.3  AdaBoost 方法 

AdaBoost 方法 (Freund and Shapire, 1996) 是 属于 组 合 方法 的 一 种 学 习 算 法 。 事 实 上， 对 
于 这 种 类 型 的 算法 ， 它 们 的 预测 值 是 通过 对 一 组 基本 模型 的 预测 值 进 行 某 种 形式 的 组 合 而 形 
成 的 。AdaBoost 方法 应 用 一 种 自 适应 增强 方法 来 得 到 一 组 基本 模型 。 假 如 它 比 随机 分 类 器 好 ， 
那么 增强 方法 是 一 种 常见 的 提高 基本 算法 性 能 的 方法 。AdaBoost 模型 是 通过 序 贯 方式 来 获取 
的 。 序 列 的 每 一 个 新 成 员 都 是 通过 提高 序列 中 前 一 个 模型 的 误差 率 来 获得 的 。 它 通过 一 种 加 
权 模 式 来 提高 模型 性 能 : 它 增 加 被 前 一 个 模型 误 分 类 的 个 案 的 权重 。 这 意味 着 基本 模型 用 于 
不 同 分 布 的 训练 集 数据 。 经 过 以 上 过 程 的 几 次 迭代 ， 和 结果 是 一 组 在 不 同 训练 集 数据 上 的 基本 
模型 。 这 个 组 合 可 以 用 于 获得 原始 数据 的 测试 个 案 的 预测 值 。 对 单个 基本 模型 的 预测 值 进 行 加 
权 平 均 就 可 以 得 到 组 全 预测 值 。 权 重 的 定义 方式 是 ， 最 大 的 权重 赋 给 序列 中 最 后 得 到 的 模型 
(理论 上 最 小 误差 的 模型 ) 。 

AdaBoost 应 用 的 加 权 方 式 对 于 类 分 布 失衡 的 学 习 算 法 很 有 意义 。 即 使 在 初始 的 迭代 中 ,也 有 
少数 个 案 的 类 被 模型 忽略 ,它们 的 权重 将 会 增加 ， 模 型 “被 迫 ” 学 习 它 们 。 理 论 上 ， 这 将 导致 
得 到 的 组 合 模型 能 更 精确 地 预测 这 些 稀有 个 案 。 

AdaBoost. M1 是 AdaBoost 方法 的 一 个 特殊 实现 。 它 用 具有 少数 结 点 的 回归 树 作为 基本 模型 。 
添加 包 adabag (Cortes et al. , 2010) 中 的 函数 adaboos. MI() 实现 了 该 方法 。 不 幸 的 是 ， 该 模型 
提供 的 predict 方法 不 能 给 出 类 概率 。 对 我 们 的 案例 而 言 ， 这 是 一 个 严重 的 限制 。 如 前 所 述 ， 我 
们 需要 这 些 概率 值 ， 因 为 我 们 要 用 每 个 报告 属于 类 fraud 的 概率 来 得 到 离 群 值 排序 。 因 此 ， 我 们 
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152 ”数据 挖掘 与 R 语言 


这 里 不 能 应 用 这 个 AdaBoost. M1 算法 的 实现 。 到 本 书写 作 时 ， 上 面 的 力 数 是 唯一 的 AdaBoost. MI 
算法 的 R 实现 。 然 而 ， 我 们 可 以 选择 Weka ”数据 挖掘 软 件 。Weka 是 一 个 数据 挖掘 和 机 器 学 习 的 
开源 软件 。 这 款 优 秀 的 软件 提供 了 很 多 具有 友好 用 户 界 面 的 学 习 算法 。 与 R 相 比 ， 它 提供 了 R 
中 所 没有 的 多 个 算法 ， 同 时 它 有 易于 应 用 的 漂亮 用 户 界 面 。 另 一 方面 ，R 在 软件 开发 、 开 发 协议 
方面 有 更 好 的 灵活 性 ， 并 且 它 有 适用 于 更 多 研究 领域 的 建 模 工具 。 由 于 R 的 添加 包 RWeka 
(Hornik et al. , 2009) ， 我 们 才 可 以 在 R 内 应 用 Weka 软件 的 大 部 分 功能 。 如 果 计 算 机 上 安装 有 
Java 软件 ， 那 么 在 安装 该 添加 包 的 同时 也 会 在 该 计算 机 上 安装 Weka 软件 。 如 果 没 有 安装 Java 软 
件 ， 那 么 安装 过 程 会 报错 并 明确 给 出 如 何 做 的 指示 。 我 们 强烈 建议 安装 宪 该 添加 包 后 ， 要 阅读 它 
的 帮助 文档 以 了 解 RWeka 可 以 应 用 哪些 方法 。 

218 添加 包 RWeka 的 函数 AdaBoostM1( ) 通过 Weka 实现 了 AdaBoost M1 分 类 模型 。 与 添加 包 
adabag 的 实现 相反 ， 该 算法 的 predict 方法 可 以 输出 类 概率 ， 因 此 可 以 用 它 来 得 到 我 们 问题 中 的 
离 群 值 排序 。 默 认 情 况 下 Weka 的 实现 用 决策 桩 为 基本 模型 ， 决 策 桩 是 一 类 特殊 的 分 类 树 ， 它 
仪 有 一 个 单独 的 测试 结 点 。 这 个 默认 值 和 其 他 设置 都 是 函数 的 参数 ， 如 有 必要 都 可 以 修改 。 晴 数 
WOW() 允许 你 检查 一 个 特定 的 Weka 算法 有 哪些 参数 。 下 面 是 该 函数 在 我 们 的 目标 模型 中 应 用 
的 一 个 例子 : 

> library (RWeka) 
> WOW (AdaBoostM1) 


-P Percentage or weight mass to base training on. (default 
100, reduce to around 90 speed up) 
Number of arguments: 1. 


-Q Use resampling for boosting. 

-5 Random number sead. (default i) 
Number of arguments: 1. 

-I Number of iterations. (default 10) 
Number of arguments: 1. 

-D If set, classifier is run in debug mode and may output 
additional info to the console 

-W Full name of base classifier. (default: 


weka.classifiers.trees.DecisionStump) 
Number of arguments: 1. 

-D If set, classifier is run in aebug mode and may output 
additional info to the console 


当 调 用 相应 的 函数 时 ， 可 以 通过 参数 control 和 函数 Weka_control( ) 对 一 些 参 数值 进行 改变 。 
下 面 是 对 着 名 的 数据 集 ins, MHRS AdaBoostM1() 的 一 个 示例 : 


> data(iris) 
> idx <- sample(150,100) 
> model <- AdaBoostMi(Species ^ .,iris[idx,], 


* control=Weka_control (I=100)) 
> preds <- predict (model, iris[-idx,]) 
> head(preds) 


[1] setosa setosa setosa setosa setosa setosa 
Levels: setosa versicolor virginica 


> table(preds,iris[-idx,'Species']) 


© http: //www. cs. waikato. ac. nz/ml/weka/. 
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preds setosa versicolor virginica 
setosa 19 0 0 
versicolor 0 13 1 
virginica 0 2 15 


> prob.preds <- predict (model, iris[-idx,],type='probability') 
» head(prob.preds) 


setosa versicolor virginica 
2 0.9999942 5.846673e-06 2.378153e-11 
4 0.9999942 5.846673e-06 2.378153e-11 
7 0.9999942 5.846673e-06 2.378153e-11 
9 0.9999942 5.846673e-06 2.378153e-11 
10 0.9999942 5.846673e-06 2.378153e-11 
12 0.9999942 5.846673e-06 2.378153e-11 


这 个 小 例子 也 说 明了 如 何 用 该 模型 获得 分 类 概率 。 

对 于 离 群 值 排序 问题 ， 我 们 现在 准备 了 应 用 这 类 模型 的 必要 函数 。 与 简单 贝 叶 斯 模型 一 样 ， 
我 们 在 所 有 交易 上 应 用 AdaBoost. MI 方法 ， 而 不 是 单个 产品 。 下 面 的 函数 得 到 给 定 训 练 集 和 测试 
集 的 排序 报告 : 


> ab <- function(train,test) { 
+  require(RWeka,quietly=T) — 
sup <- which(train$Insp != 'unkn') 
data <- train[sup,c( ID' ,'Prod' ,'Uprice','Insp')] 
data$Insp <- factor(data$Insp,levelssc('ok','fraud!)) 
model <- AdaBoostMi(Insp ^ .,data, 
control=Weka_control (I=100)) 
preds <- predict (model,test[,c('ID','Prod','Uprice','Insp')], 
type=' probability’) 
return(list (rankOrder=order (preds[,'fraud'] ,decreasing=T), 
rankScore=preds[,'fraud']) 


本本 十 十 十 十 二 二 本 


) 


+ 


+} 
在 保留 (hold-out) 例 程 中 调用 的 函数 : 


> ho.ab <- function(form, train, test, ...) { 
+ res <- ab(train,test) 


+  structure(evalÜutlierRanking(test,res$rankOrder,...), 

* itInfo=list (preds=res$rankScore, 

+ trues=ifelse (test$Insp=='fraud', 1,0) 
* ) 

+ ) 


*) 


最 后 ， 给 出 运行 保留 (hold-out) 实验 的 代码 : 
> ab.res <- holdÜOut(learner('ho.ab', 


* pars-list(Threshold*0.1, 

* statsProds*globalStats)), 
" dataset(Insp ^ .,sales), 

* hldSettings(3,0.3,1234,T), 

十 itsInfo=TRUE 

+ ) 


对 于 10% 的 检验 努力 ，AdaBoost 模型 的 结果 如 下 : 


> summary(ab.res) 


== Summary of a Hold Out Experiment == 


3 
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Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.ab with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 
Precision Recall avgNDTP 


avg 0.0220722972 0.69416565 1.5182034 
std 0.0008695907 0.01576555 0.5238575 
min 0.0214892554 0.68241470 0.9285285 
max 0.0230717974 0.71208226 1.92982B6 
invalid 0.0000000000 0.00000000 0.0000000 


这 些 结果 属于 目前 得 到 的 最 好 结果 之 一 。 事 实 上 ， 与 LOF 和 OR, 得 到 的 最 好 结果 相 比 ， 这 
里 的 结果 仍然 很 不 错 。 另 外 ， 我 们 注意 到 这 个 模型 仅仅 应 用 给 定 报 告 的 很 小 部 分 (检验 过 的 报 
E) 来 得 到 它们 的 排序 。 尽 管 如 此 ， 它 达到 了 稳健 的 回溯 精确 度 值 69% 和 一 个 很 好 的 平均 NDTP 
值 1.5。 

下 面 的 代码 得 到 PR 曲线 和 累积 回溯 精确 度 曲线 : 


> par(mfrowsc(1,2)) 
> info <- attr(ab.res,'itsInfo!) 
> PTs.ab <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 


+ c(1, 3, 2) 

* ) 

> PRcurve(PTs.nb[,,1],PTs.nb[,,2], 

+ main='PR curve',lty=1,xlim=c(0,1),ylim=c (0,1), 
+ avg='vertical') 

> PRcurve(PTs.orh[,,1],PTs.orh[,,2], 

+ add=T,1ty=1,col='grey', 

+ avg='vertical') 

> PRcurve(PTs.ab[,,1],PTs.ab[,,2], 

+ add=T, 1ty=2, 

+ avg-'vertical') 

> legend('topright',c('NaiveBayes','ORh','AdaBoostM1'), 

* lty=c(1,1,2),col=c('black','grey' ,'black')) 

> CRchart(PTs.nb[,,1],PTs.nb[,,2], 

+ mains'Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
+ avg='vertical') 

> CRchart(PTs.orh[,,1],PTs.orh[,,2], 

+ add=T, lty=1,col='grey', 

+ avg='vertical') 

> CRchart(PTs.ab[,,1],PTs.ab[,,2], 

+ add=T, 1ty=2, 

+ avg='vertical') 

> legend ('bottomright',c('NaiveBayes' ,'ORh','AdaBoostM1'), 
+ lty=c(1,1,2),col=c('black','grey' ,'black')) 


图 4-13 也 确认 了 AdaBoost MI 算法 的 优秀 性 能 ， 特 别 是 累积 回 湖 精 确 度 。 该 曲线 显示 对 于 

大 多 数 的 资源 限制 水 平 ，AdaBoost M1 方法 的 分 数 和 OR, 方法 得 到 的 分 数 匹配 。 就 PR 曲线 而 言 ， 

尤其 是 对 低 水 平 的 回 湖 精 确 度 值 ，AdaBoost MI 方法 的 性 能 不 是 那么 吸引 人 。 然 而 ， 对 于 较 高 的 

;7] 回潮 精确 度 值 ， 它 明显 地 与 我 们 目前 得 到 的 最 好 的 决策 精确 度 匹配 。 而 且 ， 我 们 注意 到 ， 这 里 较 
， | 高 的 回潮 精 确 度 水 平 恰恰 是 我 们 的 应 用 所 需要 的 。 

22| 总 之 ， 对 我 们 的 应 用 而 言 ，AdaBoost M1 方法 是 一 个 很 有 竞争 力 的 模型 。 尽 管 存在 类 失衡 问 
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题 ， 但 该 组 合 方法 给 出 了 具有 最 好 性 能 的 产品 排序 。 
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Average recall Average rate of positive predictions 
图 4-13 简单 贝 叶 斯 方法 、OR, 方法 和 AdaBoost. MI 方法 的 PR 图 (AB) AZARAE HA (AB) 


增强 方法 的 参考 文献 

AdaBoost. M1 算法 是 更 广泛 增强 类 算法 的 一 个 例子 ,该 类 算法 应 用 较 差 学 习 算 法 (上 比 随 机 猪 
测 稍 好 ) 的 组 合 来 获得 较 好 的 预测 性 能 。 这 类 算法 的 参考 资 料 是 Freund 和 Shapire (1996) 的 论 
文 。 其 他 重要 的 增强 方法 的 历史 文献 是 Shapire (1990) 和 Freund (1990) 的 文章 。 有 些 重 要 的 
分 析 可 以 在 Breiman (1998), Friedman (2002) 和 Ritsch 等 (2001) 的 工作 中 找到 。 可 以 在 
Hastie 等 (2001) 的 书籍 的 第 10 章 找 到 有 关 增 强 方法 的 很 好 描述 。 
4.4.3 半 监 督 方法 

本 节 摘 述 符 试 同时 使 用 检验 的 和 没有 检验 的 报告 来 得 到 侦 测 欺诈 报告 的 分 类 模型 。 这 意味 
着 我 们 需要 某 种 形式 的 半 监 督 分 类 模型 (参见 4.3. 1.3 节 )。 

自我 训练 模型 (例如 ，Rosenberg 等 (2005); Yarowsky (1995)) 是 一 个 众所周知 的 半 监督 
分 类 形式 。 该 方法 先 用 给 定 标记 的 个 案 来 建立 一 个 初始 的 分 类 器 。 然 后 应 用 这 个 分 类 器 来 预测 
给 定 训练 集中 未 标记 的 个 案 。 将 分 类 占 中 有 较 高 置信 和 度 的 预测 标签 所 对 应 的 个 案 和 预测 的 标签 
一 起 加 入 到 有 标记 的 数据 集中 。 在 这 个 新 的 数据 集 上 我 们 得 到 一 个 新 的 分 类 器 ， 继 续 进行 这 个 
过 程 ， 直 到 达到 某 个 收敛 准则 时 选 代 过 程 才 停止 。 只 要 能 输出 预测 的 置信 和 度 信 息 ， 那 么 任何 基本 
分 类 算法 都 可 运用 该 方法 。 这 与 4. 4. 3 节 描 述 的 两 个 分 类 器 的 类 概率 相似 。 自 我 训练 方法 有 三 个 
相关 的 参数 : 1) 基本 训练 模型 ; 2) 分 类 置信 和 度 阔 值 ， 它 用 来 确定 哪些 个 案 加 人 到 新 的 训练 集 
中 ; 3) 决定 何 时 终止 自我 训练 过 程 的 收敛 准则 。 在 本 书 的 R 添加 包 中 ， 有 一 个 泛 型 函数 
(SelfTrain( ) ) ， 它 可 以 用 于 概率 分 类 器 ， 基 于 同时 有 标记 个 案 和 未 标记 个 案 的 训练 集 来 训练 模型 。 

下 面 用 数据 集 inis 给 出 这 个 函数 的 一 个 简单 应 用 示例 。 我 们 在 该 数据 集中 人 工 创 建 了 少数 未 
标记 的 样本 ， 这 样 就 能 应 用 半 监 督 的 分 类 方法 : 


> library(DMwR) 

> library(e1071) 

> data(iris) 

> idx «- sample(150, 100) 

» tr «- iris[idx, ] 

> ts <- iris[-idx, J 

> nb <- naiveBayes(Species ^ ., tr) 
» table(predict(nb, ts), ts$Species) 


> pred.nb <- function(m,d) { 
p <- predict (n,d, type= raw ) 
data. frame(cl=colnames(p) [apply(p,1,which.max)], 
p=apply (p,1,max) 
) 
J 
nb.st «- function(train,test) ( 
require(e1071,quietly-T) 
train <- train[,c(ID' ,'Prod' ,'Uprice','Insp')] 
train[which(train$Insp == 'unkn'),'Insp'] <- NA 
train$Insp <- factor(train$Insp,levels*c('ok','fraud')) 
model <- SelfTrain(Insp ^ .,train, 
learner (‘naiveBayes' ,list()),'pred.nb') 
preds <- predict (model,test[,c('ID','Prod','Uprice','Insp')], 
type='raw' ) 
return (list (rankOrder=order (preds[,'fraud'] ,decreasing=T), 
rankScore=preds[,'fraud']) 
) 
} 
ho.nb.st <- function(form, train, test, ...) { 
res <- nb.st(train,test) 
structure (evalQutlierRanking(test,res$rankOrder,...), 
. itInfo=list (preds=res$rankScore, 
trues-ifelse(test$Insps- fraud',1,0) 
) 
) 


- 


nb.st.res <- holdÜut(learner('ho.nb.st!, 
pars=list (Threshold=0.1, 


dataset (Insp ^ .,sales), 
hldSettings(3,0.3,1234,T), 
itsInfo-TRUE 

) 


运行 上 面 的 自我 训练 模型 的 结果 如 下 所 示 。 
> summary (nb.st.res) 


oMoR o Ro B o. OV o S AR B BR RR RO Vo. M B & 9 B 6). 4 94 04 0. o4 V o4 o4 o4. + + 


== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 X Holdout run with seed = 1234 


* Dataset :: sales 

+ Learner :: ho.nb.st with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall AVgNDTP 
avg 0.013521017 0.42513271 1.08220611 
std 0.001346477 0.03895916 1.59726790 
min 0.012077295 0.38666667 0.06717087 
mar 0.014742629 0.46456693 2.92334375 
invalid 0.000000000 0.00000000 0.00000000 


statsProds=globalStats)), 
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这 些 结果 很 令 人 失望 。 它 与 只 用 有 标记 数据 训练 的 简单 贝 叶 斯 的 结果 很 相似 。 除 了 NDTP 的 
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setosa versicolor virginica 


setosa 12 0 0 
versicolor 0 2l 1 
virginica 0 0 16 
> trST <- tr 
> nas <- sample(100, 90) 
> trST[nas, "Species"] «- NA 
> func <- function(m, d) { 
* p <- predict(m, d, type = "raw") 
* data.frame(cl = colnames(p)[apply(p, 1, which.max)], 
* p * apply(p, 1, max)) 
+ } 
> nbSTbase <- naiveBayes(Species ^ ., trST[-nas, ]) 
» 


table(predict(nbSTbase, ts), ts$Species) 


setosa versicolor virginica 


setosa 12 0 0 
versi color 0 18 2 
virginica 0 3 15 


v 


nbST <- SelfTrain(Species ^ ., trST, learner("naiveBayes", 
list()), "func") 
table(predict(nbST, ts), ts$Species) 


v + 


setosa versicolor virginica 


setosa 12 0 0 
versicolor 0 20 2 
virginica 0 1 15 


上 面 的 代码 得 到 了 3 个 不 同 的 简单 贝 叶 斯 模型 。 第 一 个 模型 (nb) 用 一 个 有 100 个 标记 个 案 
的 样本 得 到 。 将 这 100 个 个 案 转换 为 男 一 个 集合 ， 其 中 的 90 个 个 案 的 目标 变量 被 设 为 NA， 于 是 
它们 变 为 未 标记 的 个 案 。 用 剩余 的 10 个 有 标记 的 个 案 得 到 第 二 个 简单 贝 叶 斯 模型 《nbSTbase ) 。 
最 后 ， 把 有 标记 个 案 和 未 标记 个 案 混 合 后 的 数据 集 传递 给 旺 数 SelfTrain( ) 从 而 得 到 第 三 个 模型 
(nbST) 。 从 上 面 可 以 看 到 ， 在 这 个 小 例子 中 ， 自 我 训练 的 模型 几乎 达到 了 与 用 100 个 标记 个 案 
得 到 的 初始 模型 一 样 的 性 能 。 

为 了 应 用 函数 SelfTrain( ) ， 用 户 必须 创建 一 个 函数 (上面 代 码 中 是 func( ) ) ， 它 能 接收 一 个 
给 定 模型 与 测试 集 ， 并 返回 一 个 含有 两 列 并 与 测试 集 有 相同 行 数 的 数据 框 。 数 据 框 的 第 一 列 包 
含 个 案 的 预测 标记 ， 第 二 列 为 那个 分 类 的 相应 概率 。 该 函数 需要 在 函数 SelfTrain( ) 之 外 来 定义 ， 
因为 不 是 所 有 的 predict 方法 都 用 相同 的 语法 来 获得 类 概率 。 

函数 SelfTrain( ) 有 几 个 参数 来 控制 迭代 过 程 。 参 数 thrConf (默认 值 为 0.9) 设置 为 把 一 个 
未 标记 个 案 合并 到 有 标记 个 案 集 的 概率 国 值 《默认 为 0.9) ， 参 数 maxlts 允许 用 户 设置 自我 训练 
选 代 的 最 大 次 数 (默认 为 10) ， 而 参数 percFull (默认 为 1) 用 来 指示 如 果 有 标记 集合 达到 了 某 
个 给 定数 据 集 的 一 定 百分比 就 停止 该 过 程 。 自 我 训练 选 代 过 程 达到 下 列 条 件 将 停止 : BARA 
分 类 达到 所 要 求 的 概率 水 平 ， 要 人 么 达到 了 最 大 和 迭代 次 数 ， 要 么 当前 有 标记 训练 集 达 到 了 给 定数 
据 集 的 目标 比例 。 最 后 要 注意 的 是 ， 范 数 SelfTrain( ) 要 求 在 目标 变量 上 用 NA 值 来 表示 未 标记 
的 个 案 。 我 们 采用 简单 贝 叶 斯 模型 来 应 用 这 种 自我 训练 。 下 面 的 代码 实现 和 运行 用 自我 训练 的 
贝 叶 斯 模型 来 进行 的 保留 (hold-out) 实验 。 这 里 要 警告 的 是 ， 有 关 运 行 该 实验 所 必需 的 计算 资 
源 。 取 决 于 计算 机 硬件 ， 运 行 的 下 面 的 代码 将 花费 较 长 的 时 间 ， 尽 管 是 以 分 钟 计算 (至 少 在 我 
的 平均 水 平 的 计算 机 上 是 这 样 )。 
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平均 值 有 些许 提高 外 ， 其 他 统计 量 基 本 相同 ， 它 比 我 们 目前 得 到 的 最 好 分 数 相差 很 大 。 而 且 ， 就 
是 这 个 较 好 的 指标 还 伴随 一 个 很 大 的 标准 差 。 

图 4-14 给 出 了 这 个 模型 、 标 准 简单 贝 叶 斯 模型 和 OR, 模型 的 PR 曲线 以 及 累积 回溯 精确 度 
曲线 。 用 下 面 的 代码 来 绘制 该 图 形 : 


> par(mfrow=c(1,2)) 

> info <- attr(nb.st.res,'itsInfo') 

> PTs.nb.st <- aperm(array(unlist(info),dim-c(length(info[[1]]),2,3)), 
+ c(1,3,2) 

* ) 

» PRcurve(PTs.nb[,,1],PTs.nb[,,2], 

+ main='PR curve',1lty=1,xlim=c(0,1),ylim=c(0,1), 

+ avg='vertical') 

> PRcurve(PTs.orh[,,1],PTs.orh[,,2], 

+ add=T, lty=1,col='grey', 

+ avg='vertical') 

> PRcurve(PTs.nb.st[,,1],PTs.nb.st[,,2], 

+ add=T, 1lty=2, 

+ avg='vertical') 

> legend (‘topright',c('NaiveBayes','ORh','NaiveBayes-ST'), 

+ ity=c(1,1,2),col=c('black','grey','black')) 

> CRchart (PTs.nb[,,1],PTs.nb[, ,2], 

+ main-'Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
* avge'vertical!') 

» CRchart(PTs.orh[,,1],PTs.orh[,,2], 

+ add=T,1lty=1,col='grey', 

+ avg='vertical') 

> CRchart(PTs.nb.st[,,1], PTs.nb.st[,,2], 

* add=T, 1ty=2, 

十 avg='vertical') 

> legend ("bottomright' ,c('NaiveBayes' ,'ORh','NaiveBayes-ST"), 
+ lty=c(1,1,2),col=c('black','grey','black')) 


图 4-14 确认 了 自我 训练 的 简单 中 叶 斯 分 类 模型 令 人 失望 的 性 能 。 对 于 这 个 特定 问题 ， 即 使 
应 用 了 由 相对 较 小 的 数据 集 得 到 的 简单 贝 叶 斯 模型 ， 这 个 半 监 督 分 类 器 还 是 明显 没有 竞争 力 。 


0.4 0.8 
Average rate of positive predictions 
图 4-14 UIST ER DL IHE E, b E PY AA IHE HERE OR, 方法 的 PR 图 ( 左 图 ) 
和 累积 回调 精确 度 曲线 〈 右 图 ) 
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我 们 也 用 AdaBoost. M1 算法 进行 了 自我 训练 。 下 面 的 代码 执行 这 些 实验 : 


> pred.ada «- function(m,d) { 

p <- predict (m,d,type='probability') 

data. frame(cl=colnames(p) [apply(p,1,which.max)], 
p=apply (p, 1,max) 
) 


J 
ab.st <- function(train,test) { 
require (RWeka, quietly=T) 
train <- train[,c(‘ID','Prod','Uprice','Insp')] 
train[which(train$Insp == 'unkn'),'Insp'] <- NA 
train$Insp <- factor(train$Insp,levelsec('ok','fraud')) 
model <- SelfTrain(Insp ^ .,train, 
learner (‘AdaBoostM1', 
list (control=Weka_control (I=100))), 
‘pred. ada’) 
preds <- predict (model,test[,c('ID' ,'Prod' ,'Uprice','Insp')], 
type='probability') 
return (list (rankOrder=order (preds[,'fraud'] ,decreasing=T), 
rankScore=preds[,'fraud']) 
2 


} 
ho.ab.st <- function(form, train, test, ...) { 
res <- ab.st(train,test) 
structure(evalDutlierRanking(test,res$rankÜrder,...), 
itInfo*list(preds-res$rankScore, 
trues=ifalse(test$Insp=='fraud',1,0) 
) 
2 
} 
ab.st.res <- holdDut(learner('ho.ab.st', 
parsslist(Threshold-0.1, 
statsProds-globalStats)), 
dataset(Insp ~ .,sales), 
hldSettings(3,0.3,1234,T), 
itsInfo-TRUE 
) 


E 10% 的 检验 努力 下 ， 目 我 训练 的 AdaBoost 方法 的 结果 如 下 : 
> summary(ab.st.res) 


ooo o Vo oo o o o o OV o o o B o à 6 o 9. 4 4 B B ttt VOR o oR Ro 


+ 


== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.ab.st with parameters: 
Threshold = 0.1 
statsProds = 11.34 . 

* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.022377700 0.70365350 1.6552619 
std 0.001130846 0.02255686 1.5556444 
min 0.021322672 0.68266667 0.5070082 
max 0.023571548 0.72750643 3.4257016 
invalid 0.000000000 0.00000000 0.0000000 
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尽管 不 是 出 人 意料 地 好 ， 但 这 些 分 数 比 单独 用 有 标记 数据 得 到 的 AdaBoost. M1 模型 有 提高 。 
决策 精确 度 基 本 上 一 样 ， 在 回 湖 精 确 度 和 平均 NDTP 上 有 小 的 提高 。 对 于 1096 的 努力 水 平 ， 这 里 
的 回潮 精确 度 是 我 们 尝试 的 所 有 模型 中 最 高 的 。 图 4-15 给 出 了 这 个 模型 、 标 准 Adaboost. MI 模 
型 和 OR, 模型 的 PR 曲线 以 及 累积 回潮 精确 度 曲 线 。 用 下 面 的 代码 来 绘制 该 图 形 ; 


> par(mfrow = c(1, 2)) 

> info <- attr(ab.st.res, "itsInfo") 

> PTs.ab.st «- aperm(array(unlist(info), dim = c(length(info[[1]]), 
* 2, 3)), c(1, 3, 2)) 

> PRcurve(PTs.ab[, , 1], PTs.ab[, , 2], main = "PR curve", 

* lty = 1, xlim = c(0, 1), ylim = c(0, 1), avg = "vertical") 

> PRcurve(PTs.orh[, , 1], PTs.orh[, , 2], add = T, lty = 1, 


* col = "grey", avg = "vertical") 
> PRcurve(PTs.ab.st[, , 1], PTs.ab.st[, , 2], add = T, lty = 2, 
4 avg * "vertical") 


> legend("topright", c("AdaBoostM1", "ORh", "AdaBoostM1-ST"), 

十 lty = c(1, 1, 2), col = c("black", "gray", "black")) 

> CRchart(PTs.ab[, , 1], PTs.ab[, , 2], main = "Cumulative Recall curve", 
* lty = 1, xlim = c(0, 1), ylim = c(0, 1), avg = "vertical") 

> CRchart(PTs.orh[, , 1], PTs.orh[, , 2], add = T, lty = 1, 


+ col = "grey", avg = "vertical") 
> CRchart(PTs.ab.st[, , 1], PTs.ab.st[, , 2], add = T, lty = 2, 
+ avg = "vertical") 


> legend("bottomright", c("AdaBoostM1", "ORh", "AdaBoostMi-ST"), 
+ lty = c(i, 1, 2), col = c("black", "grey", "black")) 
在 欺诈 侦 测 问题 所 尝试 的 所 有 模型 中 ， 累 积 回 湖 精 确 度 曲线 确认 了 自我 训练 的 AdaBoost. MI 
-| 模型 是 最 好 的 模型 。 特 别 是 ， 在 检验 限 值 水 平 在 15% ~ 20% 时 ， 就 侦 测 出 的 坎 诈 报告 的 比例 而 
(0| 言 ， 它 明显 地 好 于 其 他 的 模型 系统 。 就 决策 精确 度 而 言 ， 这 个 模型 的 分 数 不 是 太 吸 引 人 ， 但 前 面 
.229 | 我 们 提 到 ， 那 些 被 模型 放 在 较 高 排序 位 置 的 未 标记 报告 最 终 被 确认 为 欺诈 也 不 是 一 件 坏事 。 


Cumulative Fecal curve 





Rate of positive predictions 
4-15 上 和 目 训 练 的 AdaBoost. MI 7j?& , OR, 方法 和 标准 的 AdaBoost. M1 方法 的 PR 图 (AB) 
TI SP LAS A RE HEISE (AE) 


4.5 小 结 


本 章 的 主要 目的 是 向 读者 介绍 一 类 新 的 数据 挖掘 问题 : 离 群 值 排序 。 特 别 是 我 们 采用 了 一 
个 从 不 同 的 方面 处 理 这 个 任务 的 数据 集 。 即 ， 我 们 对 该 问题 应 用 了 有 监督 的 、 无 监督 的 和 半 监 督 
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的 方法 。 对 于 应 用 有 限 的 资源 来 找到 一 个 现象 的 异常 观测 值 这 一 常见 问题 ， 本 章 的 应 用 可 以 看 
做 是 它 的 一 个 实例 。 多 个 实际 问题 可 以 映射 到 这 个 通用 框架 中 ， 例 如 信用 卡 、 电 信和 税收 的 欺诈 
侦 测 等 。 在 证 养 领域 ， 也 有 这 种 欺诈 侦 测 一 般 概念 的 多 个 应 用 。 

用 方法 论 的 术语 来 讲 ， 我 们 介绍 了 下 面 的 新 主题 : 

e 离 群 值 侦 测 和 排序 。 

e RTE. 

e 半 监 督学 习 。 

* 通过 自我 训练 的 半 监 督 分 类 。 

e 和 失衡 的 类 分 布 以 及 处 理 这 类 问题 的 方法 。 

e 简单 贝 叶 斯 分 类 器 。 

è AdaBoost 分 类 器 。 

© 次 策 精 确 度 / 回 湖 精 确 度 和 累积 回调 精确 度 。 

e RE (交叉 验证 ) 实验 。 

从 学 习 R 的 角度 来 讲 ， 我 们 演示 了 : 

e 如 何 获取 多 个 性 能 指标 统计 量 和 如 何 用 ROCR 添加 包 来 可 视 化 它们 。 

e 如 何 得 到 性 能 指标 统计 量 的 交叉 验证 估计 。 

e 如 何 用 LOF 方法 得 到 局 部 离 群 值 因子 。 

e 如 何 用 OR, 方法 得 到 离 群 值 排序 。 

e 如 何 用 SMOTE 方法 克服 类 失衡 。 

e 如 何 得 到 简单 贝 叶 斯 分 类 模型 。 

e 如 何 得 到 AdaBoost. MI 分 类 模型 。 

e 如 何 通过 RWeka 添加 包 来 应 用 Weka 数据 挖掘 系统 的 方法 。 

e 如 何 用 目 训 练 方法 把 一 个 分 类 顺应 用 到 半 监 督 的 数据 集 。 231 | 
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微 阵列 样本 分 类 


第 四 个 案例 是 来 自生 物 信息 领域 。 在 这 个 案例 中 ， 我 们 重点 讲述 如 何 对 微 阵 列 样本 进行 分 
类 。 更 准确 地 说 ， 给 定 一 个 描述 病人 基因 表达 情况 的 微 阵列 表 ， 我 们 将 确定 这 个 病人 的 急性 淋巴 
细胞 白血病 的 基因 突变 类 型 。 这 个 案例 将 涉及 多 个 新 的 数据 挖掘 主题 。 根 据 这 类 数据 的 特点 ， 本 
章 重点 讲述 特征 选择 方法 ， 也 就 是 如 何 降 低 描述 每 个 观察 对 象 特 征 的 个 数 。 在 这 个 特殊 的 应 用 
中 ， 我 们 给 出 几 个 常用 的 特征 选择 方法 。 本 章 涉 及 的 其 他 数据 挖 抉 主题 包括 近邻 分 类 ， 弃 一 交 
叉 验证 法 和 其 他 形式 的 组 合 模型 。 


5.1 问题 描述 与 目标 


生物 信息 学 是 R 的 主要 应 用 领域 之 一 。 有 一 个 基于 R 的 生物 信息 学 相关 项 目 ， 该 项 目的 目 
的 是 为 生物 信息 学 领域 提供 大 量 分 析 工 具 ， 该 项 目的 名 称 为 Bioconductor 2 。 本 案例 将 使 用 这 个 
项 目 提供 的 工具 来 处 理 有 监督 的 分 类 问题 。 
5.1.1 微 阵列 实验 背景 简介 

一 个 没有 生物 背景 的 人 在 生物 信息 学 领域 中 碰 到 的 主要 问题 之 一 是 此 领域 中 大 量 的 “新 ” 
术语 。 在 这 个 简单 的 背景 介绍 中 ， 我 们 将 向 读者 介绍 生物 信息 学 领域 中 的 一 些 “ 术 语 ”， 并 且 试 
着 把 它们 映射 到 更 “标准 ”的 数据 挖掘 术语 。 

分 析 差 异 基 因 表 达 是 DNA 微 阵列 实验 中 的 一 个 重要 应 用 之 一 。 基 因 表 达 徽 阵列 可 以 让 我 们 

根据 样本 的 基因 表达 水 平 来 描述 这 些 样 本 〈 即 个 体 ) 的 特征 。 在 生物 信息 学 领域 ， 一 个 样本 是 

指 某 些 研究 现象 的 一 个 观 调 值 (或 者 个 案 )。 微 阵列 实验 是 用 来 测量 这 些 观测 值 的 “变量 ”集合 
的 方法 。 这 里 的 变量 是 指 大 量 基因 数据 的 集合 ， 对 每 一 个 变量 (基因 )， 这 些 实验 都 会 测量 一 个 
相应 的 表达 水 平 。 总 之 ,一 个 数据 集 是 由 一 组 样本 ( 即 个 案 ) 构成 ,我们 测量 这 些 样 本 的 大 量 
AED] ( 即 变量 ) 集合 的 表达 水 平 。 如 果 这 些 样品 有 一 些 与 其 相关 的 疾病 状态 ， 我 们 可 以 尝试 找 
到 一 个 未 知 函 数 ， 该 函数 可 以 把 基因 表达 水 平 映 射 到 疾病 状态 。 可 以 使 用 一 个 先前 分 析 过 的 样 
本 的 数据 集 来 近似 描述 这 个 函数 ， 这 是 一 个 有 监督 分 类 任务 的 一 个 实例 ， 其 中 目标 变量 是 疾病 
类 型 。 在 这 种 问题 中 ， 观 测 值 是 样品 〈 微 阵列 、 个 体 ) ， 预 测 变量 是 我 们 用 微 阵列 实 验 来 测量 某 
值 ( 即 表达 水 平 ) 的 基因 。 这 里 的 关键 假设 是 不 同 的 疾病 类 型 是 与 不 同 的 基因 表达 谱 特 征 相关 
的 ， 而 且 通 过 微 阵列 来 测量 这 些 基 因 表 达 谱 ， 我 们 就 可 以 精确 地 预测 一 个 个 体 的 疾病 类 型 。 

为 了 获得 一 些 样本 的 基因 表达 水 平 ， 多 种 技术 手段 由 此 而 生 。 短 赛 核 苷 酸 芯 片 就 是 这 些 技 
术 的 一 个 例子 。 得 赛 核 苷 酸 芯 片 的 输出 是 一 个 图 像 ， 经 过 几 个 预 处 理 步骤 后 ， 这 个 图 像 可 以 映射 
为 一 组 基因 表达 水 平 。 项 目 Bioconductor 有 几 个 R 添加 包 就 是 实现 这 些 预 处 理 步 又 的 ， 它 包括 分 
析 短 赛 核 苷 酸 芯片 输出 的 图 像 、 标 准 化 任务 ， 以 及 其 他 几 个 得 到 基因 表达 水 平 的 必要 步 又 。 在 这 
个 案例 中 ， 我 们 不 介绍 这 些 初 始 的 步 又 。 感 兴趣 的 读者 可 以 参考 Bioconductor 项 目的 几 个 信息 资 
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源 ， 也 可 以 参考 其 他 书籍 (例如 ，Hahne et al. , 2008), 

在 这 种 情况 下 ， 我 们 将 直接 从 经 过 这 些 预 处 理 步骤 得 到 的 基因 表达 水 平息 阵 人 手 。 该 矩阵 
是 观测 值 的 预测 变量 信息 。 我 们 将 会 看 到 ， 通 常会 有 比 样 本 量 更 多 的 预测 变量 被 测量 ， 也 就 是 说 
预测 变量 的 个 数 多 于 观测 值 的 个 数 。 这 是 典型 的 微 阵列 数据 集 的 特点 。 这 些 基因 表达 和 矩阵 的 另 
一 个 特别 之 处 是 ， 与 标准 的 数据 集 相 比较 ， 它 们 看 起 来 是 经 过 转 置 的 。 这 意味 着 矩阵 的 行 代表 预 
测 变量 ( 即 基 因 )， 和 矩阵 的 列 代 表 观 测 值 ( 即 样 本 )。 对 于 每 一 个 样本 ， 我们 也 需要 它 的 相关 分 
类 。 在 本 章 的 案例 中 ， 该 分 类 是 一 种 遗传 变异 相关 疾病 。 这 里 也 可 能 存在 其 他 的 变量 信息 ( 例 
如 ， 抽 样 个 体 的 性 别 和 年 龄 等 ) 。 
5.1.2 数据 集 ALL 

本 章 所 使 用 的 数据 集 来 自 关于 急性 淋巴 细胞 白血病 的 一 个 研究 Chiaretti et al. , 2004; Li, 
2009) 。 这 些 数据 是 从 和 患 这 类 疾病 的 128 位 个 体 上 得 到 的 微 阵列 样本 。 事 实 上 ， 在 这 些 样本 中 有 
两 种 不 同类 型 的 肿瘤 : T 细胞 ALL ( 共 33 例 样 本 ) 和 B 细胞 ALL ( 共 95 例 样本 )。 

我 们 将 集中 研究 B 细胞 ALL 样本 数据 。 在 这 后 一 组 样品 中 ， 我 们 能 区 分 出 不 同类 型 的 突变 ， 
即 ALLL/AF4, BCR/ABL, E2A/PBX1, pl5/p16 和 没有 细胞 遗传 学 异常 。 在 对 B 细胞 ALL 样本 
的 分 析 中 ， 由 于 只 有 一 个 样本 的 突变 类 型 为 p15/p16， 所 以 所 有 分 析 中 将 剔除 该 观测 值 。 我 们 建 
模 的 目标 是 根据 它 的 微 阵 列 能 够 预测 出 个 体 的 突变 类 型 。 考 虑 到 目标 变量 是 有 4 个 可 能 取 值 的 名 
义 变量 ， 因 此 我 们 面临 的 是 一 个 有 监督 的 分 类 任务 。 


5.2 可 用 的 数据 


数据 集 ALL 是 生物 信息 学 软件 包 (Bioconduetor) 的 一 部 分 。 为 了 使 用 该 数据 集 ， 我 们 至 少 
需要 从 Bioconductor 网 站 安 闭 一 些 基本 的 添加 包 。 由 于 这 个 数据 集 已 经 是 R 添加 包 的 一 部 分 ， 所 
以 这 里 没有 把 这 个 数据 集 包含 在 本 书 的 添加 包 中 。 

为 了 安装 基本 的 生物 信息 学 软件 包 和 数据 集 ALL， 假 设 我 们 已 经 正常 连接 到 了 互联 网 ， 需 要 
Tur PINGS : 

5 source ("http://bioconductor.org/biocLite.R") 

> biocLite() 

> biocLite ("ALL") 

只 需要 在 第 一 次 使 用 时 运行 上 面 的 代码 。 当 把 这 些 添 加 包 安 装 好 后 ， 只 要 简单 地 运行 下 列 
代码 就 可 以 应 用 数据 集 ALL T: 


> library(Biobase) 
> library (ALL) 
> data(ALL) 


上 面 的 指令 会 载 人 添加 包 Biobase (Gentleman et al. , 2004) 和 添加 包 ALL ( Gentleman et 
al. ，2010)。 然 后 ,我 们 载 人 数据 集 ALL， 这 将 创建 一 个 由 Bioconductor 定义 的 特殊 类 
(ExpressionSet) 对 象 。 这 个 类 对 象 含 有 微 阵列 数据 集 的 大 量 信息 。 有 多 个 相关 的 方法 来 处 理 这 
种 类 型 的 对 象 。 如 果 需 要 R 给 出 ALL 对 象 的 内 容 ， 可 以 得 到 以 下 信息 : 
ALL 
ee (storageMode: lockedEnvironment) 
assayData: 12625 features, 128 samples 
element names: exprs 
phenoData 
sampleNames: 01005, 01010, ..., LAL4 (128 total) 
varLabels and varMetadata description: 
cod: Patient ID 


"数据 挖 据 与 Ree 


diagnosis: Date of diagnosis 


date last seen: date patient was last seen 
(21 total) 
featureData 
featureNames: 1000 at, 1001 at, ..., AFFX-YELO24w/RIPi_at (12625 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use 'experimentData(object)' 
pubMedIds: 14684422 16243790 
Annotation: hguSbav2 


上 面 输出 的 ALL XA BOLT A. Cd A A eK OP SE, AAE 
包含 128 个 样本 12 625 个 基因 。ALL 对 象 也 含有 大 量 的 实验 样本 的 元 数据 。 这 包括 phenoData 部 
分 的 样本 名 称 和 几 个 相关 的 协 变量 的 信息 。 它 也 包括 特征 〈 即 基因 ) 信息 以 及 生物 医学 数据 库 
中 有 关 基 因 的 注释 。 最 后 ， 该 对 象 也 包含 实验 的 描述 信息 。 

有 多 种 方法 可 以 用 来 方便 地 访问 对 象 ExpressionSet 中 的 信息 。 下 面 给 出 几 个 例子 。 我 们 从 获 
取 与 每 一 个 样本 相关 联 的 协 变量 的 信息 人 手 ， 代 码 如 下 : 


> pD <- phenoData(ALL) 
> varMetadata(pD) 


labelDescription 
cod Patient ID 
diagnosis Date of diagnosis 
Bex Gender of the patient 
age Age of the patient at entry 
BT does the patient have B-cell or T-cell ALL 
remission Complete remission(CR), refractory(REF) or NA. Derived from CR 
CR Original remisson data 
date.cr Date complete remission if achieved 
t(4;11) did the patient have t(4;11) translocation. Derived from citog 
t(9;22) did the patient have t(9;22) translocation. Derived from citog 
cyto.normal Was cytogenetic test normal? Derived from citog 
citog original citogenetics data, deletions or t(4;11), t(9;22) status 
mol.biol molecular biology 
fusion protein which of p190, p210 or p190/210 for bcr/able 
mdr multi-drug resistant 
kinet ploidy: either diploid or hyperd. 
ccr Continuous compiete remission? Derived from f.u 
relapse Relapse? Derived from f.u 
transplant did the patient receive a bone marrow transplant? Derived from f.u 
f.u follow up data available 
date last seen date patient was last seen 


> table(ALL$BT) 


B B1 B2 B3 B4 T T1 T2 T3 T4 
b 19 36 23 12 5 1 15 10 2 


> table(ALL$mol.biol) 


ALL1/AF4 BCR/ABL E2A/PBX1 NEG NUP-98 pi5/pié 
10 37 5 74 1 1 


> table(ALL$BT, ALL$mol.bio) 


ALLi/AF4 BCR/ABL E2A/PBX1 NEG NUP-98 pi5/pi6 
B 0 2 1 2 0 0 
B1 10 1 0 8 0 0 
B2 0 19 O 16 0 1 


anak & 


T4 


Oo oO o- o 


0 


1 14 0 
3 2 0 
0 5 0 
0 1 0 
0 15 0 
0 9 1 
0 2 0 


oo oo & © 
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前 两 个 指令 用 来 获取 已 有 的 协 变量 的 名 称 和 描述 。 接 着 ,我 们 得 到 样本 在 两 个 主要 协 变量 
上 分 布 的 信息 。 这 两 个 协 变 量 是 ， 变量 BT， 它 决定 急性 淋巴 细胞 性 日 血 病 的 类 型 ; 变量 
mol. bio ， 描 述 在 每 个 样本 上 发 现 的 细胞 遗传 学 异常 (NEG 代表 没有 任何 异常 )。 


我 们 也 可 以 得 到 一 些 关 于 基因 和 样本 的 信息 : 


> featureNames (ALL) [1:10] 


[1] "1000 at" 
[6] "1005 at" 


"1001 at" 
"1006, at" 


> sampleNames (ALL) [1:5] 


[1] "01005" "01010" "03002" "04006" "04007" 
这 段 代 码 给 出 了 开始 10 个 基因 的 名 称 以 及 开始 5 个 样本 的 名 称 。 


"1002 f at" "1003 s at" "1004_at" 
"1007_s_at" "1008.f at" "1009 at" 


前 面 提 到 过 ， 我 们 将 专注 于 分 析 B 细胞 ALL 个 案 数 据 ， 特 别 是 有 基因 突变 的 那个 样本 子 集 ， 
基因 突变 是 我 们 分 析 的 目标 类 。 我 们 将 用 下 面 的 代码 获得 我 们 将 要 应 用 的 数据 子 集 : 235 


> tgt.cases <- which(ALL$BT %in% levels(ALL$BT)[1:5] & 
ALL$mol.bio Zink levels(ALL$mol. bio) [1:4]) 


+ 


> ALLb <- ALL[,tgt.cases] 


> ALLb 


ExpressionSet (storageMode: lockedEnvironment) 


assayData: 12625 features, 94 samples 
element names: exprs 


phenoData 


sampleNames: 01005, 01010, ..., LALS (94 total) 


varLabels and varMetadata description: 
cod: Patient ID 
diagnosis: Date of diagnosis 


date last seen: date patient was last seen 


(21 total) 
featureData 


featureNames: 1000 at, 1001 at, 
fvarLabels and fvarMetadata description: none 
experimentData: use 'experimentData(object)! 


pubMedIds: 14684422 16243790 
Annotation: hgu95av2 

第 一 条 指令 用 于 获得 我 们 将 考虑 的 个 案 的 集合 。 这 些 个 案 是 变量 BT 和 变量 mol. bio 取 特 定 
值 的 样本 。 前 面 介绍 过 函数 table( ) ， 这 里 调用 该 晒 数 来 显示 选择 了 哪些 样本 。 我 们 取 原 始 ALL 
对 象 的 子 集 ， 得 到 94 个 样本 用 于 我 们 的 案例 研究 。 这 个 样本 子 集 只 包含 变量 BT 和 变量 mol. bio 
的 一 部 分 取 值 。 因 此 ， 我 们 需要 更 新 这 两 个 因子 变量 的 可 用 水 平 ， 并 存储 为 一 个 新 的 ALLb 对 


象 ， 代 码 如 下 : 


> ALLb$BT <- factor(ALLb$BT) 


> ALLb$mol.bio <- factor(ALLb$mol.bio) 


..., AFFA-YELO24w/RIP1 at 


(12625 total) 
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> sapply(levels(ALLb$mol.bio), function(x) summary(as.vector(es[, 
+ which (ALLb$mol.bio == x)]))) 


ALL1/AF4 BCR/ABL E2A/PBX1 NEG 
Min. 2.266 2.195 2.268 1.985 
ist Qu. 4.141 4.124 4.152 4.111 
Median 5.454 — 5.468 5.497 6.470 
Mean 5.621 5.627 5.630 5.622 
3rd Qu. 6.805 6.833 6.819 6.832 
Max. 14.030 14.040 13.810 13.950 


正如 我 们 所 看 到 的 ， 这 些 样本 的 子 集 很 相似 ， 并 且 它 们 表达 水 平 的 全 局 分 布 也 相似 。 


iW, 


图 5-1 基因 表达 水 平 的 分 布 
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5.3 基因 (特征 ) 选择 


在 许多 数据 挖掘 问题 中 ， 特 征 选择 是 一 项 重要 的 任 血 。 一 般 的 问题 是 选择 数据 挖掘 问题 的 
特征 (或 者 变量 ) 子 集 ， 这 个 子 集 与 所 分 析 的 问题 有 更 高 的 相关 性 。 可 以 把 特征 选择 认为 是 之 
后 建 模 阶 段 决 定 变量 的 权重 ( 即 重要 性 ) 这 一 通用 问题 的 一 个 实例 。 一 般 而 言 ， 有 两 种 类 型 的 
特征 选择 方法 : 1) 过 滤 方 法 ; 2) 封装 方法 。 在 3. 3.2 节 提 到 ， 过 滤 方 法 应 用 变量 的 统计 特征 来 
选择 最 终 的 特征 集合 ; 而 封装 方法 则 一 般 在 变量 选择 过 程 中 要 包括 数据 挖掘 模 型 。 过 滤 方 法 在 
一 个 单一 步骤 中 完成 ， 而 封装 方法 则 需要 一 个 搜索 过 程 ， 我 们 用 和 迭代 方式 找到 最 适合 应 用 的 数 
据 挖 据 模 型 的 变量 子 集 。 特 征 封装 方法 明显 地 需要 更 多 的 计算 资源 ， 它 需要 多 次 运行 整个 “过 
滤 + 模型 + 评估 ”周期 ， 直 到 满足 某 些 收敛 准则 。 这 意味 着 ， 对 于 大 型 的 数据 挖掘 问题 ， 如 果 
时 间 要 求 很 高 ， 那 么 封装 方法 将 不 适用 。 然 而 ， 也 许 会 找到 理论 上 可 行 的 封装 方法 ， 它 适用 于 所 
应 用 模型 的 变量 集合 。 在 本 节 中 ， 我 们 将 描述 和 应 用 过 让 方法 。 

5. 3. 1 基于 分 布 特征 的 简单 过 滤 方 法 

我 们 给 出 的 第 一 个 基因 过 滤 方 法 是 基于 基因 表达 水 平分 布 所 给 出 的 信息 。 这 种 类 型 的 实验 
数据 通常 包含 有 多 个 根本 不 被 表达 的 基因 或 者 变动 性 极 小 的 基因 。 第 二 个 特征 意味 着 这 些 基 因 
不 能 用 来 对 样本 进行 区 分 。 而 且 这 种 类 型 的 微 阵列 通常 有 多 个 对 照 探 针 ， 它 们 可 以 很 容易 地 被 
剔除 。 在 我 们 的 案例 中 ， 应 用 的 微 阵 列 为 Affymetric U95Av2 ， 这 些 探 针 以 字母 “AFFX” 开头。 


166， 数据 控 拥 与 R 语言 


ALLb 对 象 将 是 本 章 所 使 用 的 数据 集 。 最 好 把 这 个 对 象 保存 为 计算 机 中 的 一 个 本 地 文件 ， 这 
样 当 你 需要 从 头 开始 分 析 时 ， 你 就 不 需要 重复 这 些 预 处 理 步 又 : 


> save(ALLb, file = "myALL.Rdata") 


探索 数据 库 
PAA exprs() 可 以 访问 基因 表达 水 平 矩 阵 : 
> es <- exprs(ALLb) 
> dim(es) 
[1] 12625 94 


238 该 数据 集 和 矩阵 有 12 625 fr (基因 /特征 ) 94 列 (样本 /个 案 )。 
就 维 数 而 言 ， 这 里 最 重要 的 挑战 是 ， 对 于 可 以 获得 的 个 案 (94) 有 太 多 的 变量 (12625), 
对 于 这 种 大 维度 数据 ， 大 多 数 的 建 模 技 术 将 很 难 获 得 有 意义 的 结果 。 在 这 种 情形 下 ， 我 们 的 第 一 
个 目标 是 降低 变量 的 数量 ， 即 从 我 们 的 分 析 中 剔除 掉 某 些 基 因 。 为 此 ， 下 面 从 探索 表达 水 平 数据 
AF. 
下 面 指令 的 结果 告诉 我 们 ， 大 多 数 基 因 表 达 水 平 的 值 是 在 4 ~7 之 间 : 


> summary(as.vector(es)) 


Min. ist Qu. Median Mean 3rd Qu. Mar. 
1.985 4.122 5.469  À 5.624 6.829 14.040 


图 形 方 式 可 以 更 好 地 描述 表达 水 平 的 分 布 。 我 们 用 添加 包 genefilter (Gentleman et al. , 
2010) 的 一 个 函数 来 绘制 数据 。 在 应 用 该 添加 包 之 前 ， 必 须 先 安装 它 。 注 意 ， 这 是 一 个 
bioconductor 添加 包 ， 它 们 不 是 从 标准 R 添加 包 存 储 库 中 安装 。 最 简单 的 安装 生物 信息 学 添加 包 
的 方法 是 通过 该 项 目 提供 的 专用 于 安装 添加 包 的 脚本 来 完成 : 


> Bource("http://bioconductor.org/biocLite.R") 
> biocLite("genefilter") 


第 一 条 指令 加 载 安装 脚本 ,第 二 个 指令 用 它 来 下 载 和 安装 添加 包 。 现 在 可 以 进行 上 述 绘图 
工作 ， 用 图 形 化 方式 来 显示 表达 水 平 的 分 布 。 


> library(genefilter) 
> hist(as.vector(es),breaks-80,prob-T, 


* xlab='Expression Levels', 

* main="Histogram of Overall Expression Levels') 
> abline(v=c(median(as.vector(es)), 

4 shorth(as.vector(es)), 

* quantile(as.vector(es),c(0.25,0.75))), 
* 1ty-2,col*c(2,3,4,4)) 

> legend('topright',c( Median','Shorth','1st(' ,'3rdQ') , 
* lty=2, col=c(2,3,4,4)) 


结果 如 图 5-1 所 示 。 考 虑 到 我 们 的 数据 中 有 大 量 的 基因 表达 水 平 ， 因 此 这 里 改变 了 直方 图 郴 
数 hist( ) 的 默认 区 间 数 ， 设 置 参数 breaks 的 值 为 80， 这 样 就 有 可 能 得 到 分 布 很 详细 的 逼近 。 在 
直方 图 上 ， 我 们 绘制 了 几 条 竖 线 来 显示 中 位 数 、 第 一 个 四 分 位 数 、 第 三 个 四 分 位 数 和 SHORTH。 
统计 量 SHORTH 是 连续 型 分 布 的 中 心 趋势 的 稳健 估计 ， 由 添加 包 genefilter 中 的 函数 shorth( ) Sc 
现 。 该 统计 量 是 包含 50% 观测 值 的 中 心 区 间 ( 即 四 分 位 距 ) 观测 值 的 均值 。 
基因 变异 样本 的 基因 表达 水 平分 布 是 否 和 其 他 样本 的 分 布 不 同 呢 ? 下 面 的 代码 回答 了 这 个 
问题 。 
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我 们 可 以 通过 下 面 的 图 形 来 得 到 每 个 基因 在 所 有 样本 上 的 总 体 分 布 情况 。 我 们 用 中 位 数 和 
四 分 位 距 (IQR) 来 代表 基因 的 这 些 分 布 。 下 面 的 代码 用 来 得 到 每 个 基因 的 这 些 统计 量 值 并 绘制 
它们 的 散 点 图 ， 如 图 5-2 所 示 。 


> rowIQRs «- function(em) 
+  rowQ(em,ceiling(0.75*ncol(em))) - rowQ(em,floor(0.25*ncol(em))) 
» plot(rowMedians(es),rowIQRs(es), 


* xlab-'Median expression level', 
* ylab='IQR expression level', 
* main-'Main Characteristics of Genes Expression Levels') 


R 添加 包 Biobase 中 的 函数 rowMedians( ) 用 来 得 到 抢 阵 每 行 向 量 的 中 位 数 。 这 种 方式 获取 中 
位 数 是 很 有 效 的 。 另 一 种 方法 是 应 用 函数 apply( ) ， 它 没有 这 里 的 方法 有 效 ”。 函 数 rowQ( ) 是 
添加 包 Biobase 提供 的 另 一 个 高 效率 的 函数 ， 它 用 来 得 到 怎 阵 每 行 癌 量 分 布 的 四 分 位 数 ， 该 咕 数 
的 第 二 个 参数 是 一 个 取 值 在 1 到 和 矩阵 列 数 之 间 的 整数 (1 代表 最 小 值 ， 其 他 值 代表 给 出 最 大 值 ) 。 
RE, RAMA AX rowQ( ) 的 第 3 个 四 分 位 数 减 去 第 1 VUA fu X, A m 18 sl Vu 4 fv FR 
(IQR) 。 这 些 统 计量 分 别 对 应 于 7596 ~ 25% 的 数据 了。 在 上 面 的 代码 中 ， 我 们 应 用 函数 floor( ) 
和 函数 ceiling() 得 到 和 矩阵 每 一 行 数值 的 相应 四 分 位 数 的 位 置 。 这 两 个 函数 采用 不 同 的 伟人 方法 
来 获取 一 个 浮 点 数 的 整数 部 分 。 读 者 可 以 试验 这 两 个 函数 ， 理 解 它们 的 不 同 之 处 。 我 们 应 用 函数 
rowQ() 创建 了 函数 rowIQRs( ) ， 从 而 可 以 获取 每 行 的 四 分 位 距 (IQR). 


Main Characteristics of Gene Expression Levels 


IQR expression level 
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5-2 基因 表达 水 平 的 中 位 数 和 四 分 位 距 


图 5-2 给 出 了 有 趣 的 信息 。 从 图 5-2 中 可 知 ， 很 大 比例 的 基因 的 变动 性 很 小 (IQR 接近 0)。 
前 面 提 到 ， 如 采 一 个 基因 在 所 有 样本 上 的 变动 性 很 小 ， 我 们 怠 有 很 好 地 理由 认为 它 不 能 很 好 地 

起 到 区 分 不 同类 型 的 B 细胞 ALL 变异 的 作用 。 这 就 意味 着 我 们 可 以 安全 地 把 这 些 基因 从 我 们 的 

分 类 任务 中 剔除 。 我 们 需要 注意 的 是 ， 这 里 的 推理 有 一 个 缺陷。 事实 上 ， 这 里 是 从 单个 基因 来 观 
察 的 。 因 此 上 述 推理 的 风险 在 于 ， 如 果 我 们 把 某 些 在 所 有 样本 上 有 很 小 变化 的 基因 和 其 他 基因 

放 到 一 起 ， 那 么 它们 有 可 能 对 分 类 任务 起 作用 。 然 而 ， 对 于 这 样 高 维度 的 数据 集 ， 探 索 基因 之 间 

的 相互 作用 是 很 困难 的 。 因 此 ， 我 们 这 里 单独 考虑 每 个 基因 的 方法 仍然 是 处 理 这 类 问题 最 常见 


后 ”作为 一 个 练习 ， 读 者 可 以 对 这 两 个 函数 应 用 system. time( ) 函数 ， 观 察 它们 在 运行 效率 上 的 区 别 。 
O ”在 所 有 的 数据 中 ，75 名 的 数据 点 小 于 第 3 个 四 分 位 数 相 应 的 点 ，235 铝 的 数据 点 小 于 第 1 个 四 分 位 数 相 应 的 
点 。 一 一 译 者 注 
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的 方法 。 不 过 ， 也 有 其 他 方法 在 考虑 基因 之 间 相互 依赖 的 基础 上 来 估计 特征 的 重要 性 。 例 如 ， 
RELIEF 方法 (Kira and Rendel, 1992; Kononenko et al. , 1997) 。 

我 们 这 里 用 尝试 的 四 分 位 距 (IQR) 界限 值 来 剔除 那些 变动 性 很 小 的 基因 。 即 ， 我 们 将 剔除 
变动 性 小 于 总 体 IQR 1/5 的 所 有 基因 。 添 加 包 genefilter PAJAS nsFilter( ) 可 以 用 于 这 种 过 滤 任 
务 。 代 码 如 下 : 


> library(genefilter) 
> ALLb <- nsFilter(ALLb, 


+ var.func=IQR, 

+ var. cutoff=IQR(as.vector(es))/5, 
+ feature.excludez"^AFFI") 

» ALLb 

$eset 


ExpressionSet (storageMode: lockedEnvironment) 
assayData: 4035 features, 94 samples 
element names: exprs 
phenoData 
sampleNames: 01005, 01010, ..., LAL5 (94 total) 
varLabels and varMetadata description: 
cod: Patient ID i 
diagnosis: Date of diagnosis 
mol.bio: molecular biology 
(22 total) ! 
featureData 
featureNames: 41654 at, 35430 at, ..., 34371 at (4035 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use 'experimentData(object)' 
pubMedIds: 14684422 1624379C 
Annotation: hgu95av2 


$filter.log 
$filter.log$numLowVar 
[1] 4764 


$filter.log$nuniDupsRemoved 
[1] 2918 


$filter.log$feature.exclude 
[1] 19 


$filter.log$numRemoved.ENTREZID 

[1] 889 

从 结果 中 可 知 ， 过 滤 后 的 基因 从 原来 的 12 625 个 变 为 剩 下 的 4035 个 。 这 是 相当 显著 的 减少 。 
考虑 到 我 们 只 有 94 个 观测 值 ， 因 此 对 于 我 们 的 分 类 任务 来 说 ， 过 滤 后 的 基因 个 数 仍然 太 大 。 

PR. nsFilter( ) 的 结果 是 一 个 含有 多 个 元 素 的 列表 。 其 中 的 多 个 元 素 包 含 被 剔除 基因 的 信 
息 ， 而 且 元 素 eset 含有 选 出 的 基因 对 象 。 有 了 过 滤 的 结果 之 后 ， 我 们 可 以 用 选 出 的 对 象 来 更 新 
ALLb Xf RA es WK, 代码 如 下 : 


> ALLb <- ALLb$eset 
> es <- exprs(ALLb) 
» dim(es) 


[1] 4035 94 


170 + 数据 控 拥 与 R 语言 


5.3.2 ANOVA 过滤 


如 果 一 个 基因 表达 水 平 的 分 布 在 目标 变量 的 所 有 可 能 值 上 类 似 ， 则 可 以 确定 这 个 基因 无 助 
于 区 分 这 些 目标 变量 值 。 我 们 的 下 一 个 方法 就 是 基于 这 点 。 我 们 将 比较 同一 类 B 细胞 ALL 突变 
样本 所 在 数据 子 集 的 基因 表达 水 平 的 均值 ， 即 在 同一 目标 变量 值 条 件 下 的 基因 均值 。 如 果 统 计 
上 有 很 大 信心 认为 一 个 基因 的 表达 水 平均 值 在 属于 每 一 类 突变 的 样本 组 上 没有 显著 区 别 ， 那 么 
这 些 基 因 可 以 被 排除 在 进一步 分 析 之 外 。 

可 以 用 因子 分 析 (ANOVA) 来 比较 多 于 两 个 的 组 的 均值 。 在 我 们 的 案例 研究 中 ， 我 们 有 4 
组 案例 ， 每 一 组 相应 于 一 个 类 型 的 B 细胞 ALL 基因 突变 。 借 助 于 R 的 添加 包 genefilter， 可 以 在 R 
中 很 容易 地 进行 这 种 基于 ANOVA 的 过 滤 。 这 种 类 型 过 滤 的 代码 如 下 : 

> f <- Anova(ALLb$mol.bio, p = 0.01) 


> ff <- filterfun(f) 
> selGenes «- genefilter(exprs(ALLb), ff) 


» sum(selGenes) 
[1] 752 


» ALLb «- ALLb[selGenes, ] 
» ALLb 
ExpressionSet (storageMode: lockedEnvironment) 
assayData: 752 features, 94 samples 
element names: exprs 
phenoData 
sampleNames: 01005, 01010, ..., LALS (94 total) 
varLabels and varMetadata description: 
cod: Patient ID 
diagnosis: Date of diagnosis 
mol.bio: molecular biology 
(22 total) 
featureData 
featureNames: 266,8 at, 33047_at, ..., 40698 at (752 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use 'experimentData(object)' 
pubMedIds: 14684422 16243790 
Annotation: hgu95av2 


PRÉ Anova( ) 创建 了 一 个 新 的 函数 来 执行 ANOVA (方差 分 析 ) 过 滤 ， 它 需要 一 个 因子 来 给 
出 数据 集 的 组 别 和 一 个 统计 显著 性 水 平 。 该 函数 的 结果 保存 在 变量 f 中 。 了 函数 filterfun( ) 的 原理 
类 似 ， 它 给 出 一 个 用 于 表达 矩阵 的 过 滤 函 数 。 它 应 用 函数 genefilter( ) 产生 一 个 向 量 ， 向 量 的 元 
素 为 逻辑 值 ， 向 量 中 元 素 的 个 数 和 给 定 的 表达 和 气 阵 中 基因 的 个 数 相 同 。 按 照 ANOVA 统计 检验 ， 
如 果 癌 量 的 值 为 TRUE， 则 认为 相应 的 基因 是 有 用 的 。 从 结果 可 知 ， 只 有 752 个 有 用 基因 。 最 后 ， 
可 以 用 这 个 向 量 来 对 ExpressionSet 对 象 进行 过 滤 。 图 5-3 给 出 了 ANOVA 检验 所 选 出 的 基因 的 中 
位 数 和 四 分 位 距 。 下 面 的 代码 用 于 绘制 图 5-3. 


> es <- exprs(ALLb) 
> plot(rowMedians(es),rowIQRs(es), 


* xlabs'Median expression level', 
* ylabz'IQR expression level’, 
+ main='Distribution Properties of the Selected Genes') 


从 图 5-3 可 知 ， 用 中 位 数 和 四 分 位 距 来 衡量 的 基因 的 变化 性 提供 了 证 据 ， 表 明 这 些 基因 表达 
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的 取 值 的 标 度 很 不 相同 。 如 果 描 述 记 录 的 一 组 变量 的 标 度 不 同 ， 许 多 建 模 技 巧 将 会 导致 问题 。 也 
就 是 说 ， 那 些 依 赖 于 记录 之 间距 离 的 建 模 方法 将 会 有 问题 ， 因 为 距离 函数 一 般 是 变量 之 间 差 值 
的 总 和 。 因 此 ， 如 果 变 量 的 标 度 相差 很 大 ， 那 么 具有 较 大 均值 的 变量 将 对 样本 间 的 距离 有 较 大 的 
影响 。 为 了 避免 这 个 问题 ， 一 般 要 对 数据 进行 标准 化 ， 即 减 去 变量 的 典型 取 值 ， 然 后 除 以 变量 的 
一 个 变动 性 指标 。 考 虑 到 不 是 所 有 的 建 模 技术 都 会 受到 变量 不 同 标 度 的 影响 ， 因 此 我 们 把 变量 
的 标准 化 问题 放 到 建 模 阶段 ， 这 样 是 否 进 行 标准 化 将 依赖 于 所 应 用 的 工具 。 


Distribution Properties of tha Selected Genes 





图 5-3 ”最 终 的 基因 集合 的 中 位 数 和 四 分 位 距 的 散 点 图 


5. 3.3 ”用 随机 森林 进行 过 滤 

尽管 从 ANOVA 过 滤 得 到 的 表达 水 平和 矩阵 的 变量 个 数 还 是 多 于 观测 值 的 个 数 ， 但 这 已 经 在 可 
以 建 模 的 范围 之 内 。 实 际 上 ， 我 们 在 5.4 节 就 应 用 这 个 矩阵 进行 建 模 。 然 而 ， 有 人 可 能 要 问 ， 是 
否 有 里 好 的 方法 ， 从 而 得 到 具有 更 “标准 ” 维 数 的 数据 集 。 事 实 上 ,我们 可 以 尝试 进一步 减少 
特征 的 个 数 ， 然 后 比较 用 不 同 的 数据 集 得 到 的 结果 。 

可 以 用 随机 森林 得 到 变量 对 分 类 任务 有 用 程度 的 排序 。 在 3. 3.2 节 的 预测 问题 中 ， 我 们 用 随 
机 森林 得 到 了 变量 对 预测 任务 重要 性 的 排序 。 

在 演示 随机 森林 方法 之 前 ， 先 更 改 基 因 的 名 称 。 现 在 基因 的 名 称 不 是 许多 建 模 技术 所 应 用 
的 数据 框 所 期 望 的 标准 名 称 。 可 以 应 用 函数 make. names() 来 “解决 ”这 个 问题 ， 代 码 如 下 : 

> featureNames(ALLb) <- make.names(featureNames(ALLb)) 

> es <- exprs(ALLb) 

函数 featureNames( ) 用 来 获取 ExpressionSet 对 象 中 基因 的 名 称 。 

应 用 下 面 的 代码 ， 使 用 随机 森林 来 获取 基因 的 排序 : 

> library (randomForest) 

> dt <- data.frame(t(es), Mut = ALLb$mol.bio) 

> rf <- randomForest (Mut ^ ., dt, importance = T) 

> imp <- importance (rf) 

> imp <- imp[, ncol(imp) - 1] 

> rf.genes <- names(imp) [order(imp, decreasing = T)[1:30]] 


我 们 把 基因 突变 信息 加 入 到 表达 和 矩阵 的 转 置 矩阵 中 ， 从 而 构造 出 训练 集 数据 ”。 然 后 调用 随 


O 注意 表达 矩阵 的 行 代表 基因 〈 即 变量 ) 。 
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246 
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机 森林 函数 ， 把 参数 importance 设 为 TRUE ， 这 样 就 得 到 了 变量 重要 性 的 估计 值 。 项 数 importance( ) 
用 来 得 到 每 个 变量 和 目标 变量 的 相关 程度 ， 按 照 不 同 的 准则 ， 它 在 不 同 的 列 返回 每 一 个 分 类 值 
的 分 数 。 其 中 一 个 列 用 来 衡量 当 每 个 变量 被 依次 剔除 后 ， 分 类 精确 度 平 均 减 少 的 估计 值 ， 选 择 该 
列 作为 变量 的 重要 性 分 值 。 最 后 ， 选 择 出 现在 变量 重要 性 分 值 前 30 的 基因 。 

我 们 可 能 想 知道 这 30 个 基因 的 表达 水 平 在 所 有 不 同 突变 类 型 上 的 分 布 情况 。 可 以 用 下 面 的 
代码 获得 这 30 个 基因 的 中 位 数 水 平 : 

> sapply(rf.genes, function(g) tapply(dt[, g], dt$Mut, median)) 


X40202.at X1674, at X1467, at X1635_at X37015,at X34210_at 
ALLi/AF4 8.550639 3.745752 3.708985 7.302814 3.752649 5.641130 
BCR/ABL 9.767293 5.833510 4.239306 8.693082 4.857105 9.204237 
E2A/PBX1 7.414635 3.808258 3.411696 7.562676 6.579530 8.198781 
NEG 7.655605 4.244791 3.515020 7.324691 3.765741 8.791774 
132116.at X34699 at X40504_at X41470_at X41071_at X36873_at 
ALL1/AF4 7.115400 4.253504 3.218079 9.616743 7.698420 7.040593 
BCR/ABL 7.966969 6.315966 4.924310 5.205797 6.017967 3.490262 
E2A/PBX1 7.359097 6.102031 3.455316 3.931191 6.058185 3.634471 
NEG 7.636213 6.092511 3.541651 4.157748 6.573731 3.824670 
135162 s.at X38323 at X1134 at X32378,at X1307_at X1249.at 
ALL1/AF4 4.398885 4.195967 7.846189 8.703860 3.368915 3.582763. 
BCR/ABL 4.924553 4.866452 8.475578 39.694933 4.945270 4.477659 
E2A/PBX1 4.380962 4.317550 8.697500 10.066073 4.678577 3.257649 
NEG 4.236335 4.286104 8.167493 29.743168 4.863930 3.791764 
X33774 at X40795 at X36275 at X34850 at X33412 at X37579.at 
ALL1/AFA 6.970072 3.867134 3.618819 5.426653 10.757286 7.614200 
BCR/ABL 8.542248 4.544939 6.259073 6.898979 6.880112 8.231081 
E2A/PBX1 7.385129 4.151637 3.635956 5.928574 5.636466 9.494368 
NEG 7.348818 3.909532 3.749953 6.327261 5.881145 28.455750 
XA37225 at X39837 s at X37403_at X37967_at K2062_at X35164 at 
ALL1/AF4 5.220668 6.633188 5.888290 8.130686 9.409753 5.577268 
BCR/ABL 3.460902 7.374046 5.545761 9.274695 7.530185 6.493672 
E2A/PBXi1 7.445655 6.708400 4.217478 28.260236 7.935259 7.406714 
NEG 3.387552 6.878846 4.362275 38.986204 7.086033 7.492440 


从 结果 中 可 以 观测 到 ， 不 同类 型 帘 变 的 基因 的 中 位 数 表达 水 平 的 区 别 ， 它 也 给 出 了 这 些 基 
因 用 于 分 类 的 区 别 能 力 。 我 们 可 以 用 图 形 方式 来 检查 这 94 个 样本 的 具体 基因 表达 水 平 的 值 ， 可 
以 获取 更 多 的 细节 : 


> library(lattice) 
> ordMut <- order(dt$Mut) 
> levelplot(as.matrix(dt[ordMut,rf.genes]), 
* aspect='fill', xlab="', ylab=", 
scales=list ( 
x=list( 
labels=c('+','-','#','/") [as. integer (dt$Mut [ordMut])], 
De 
tck=0) 
2, 
main-paste(paste(c(!"*"',!"-m !nym 1n[mt), 
levels(dt$Mut) 
F 
collapses'; '), 
col.regionsscolorRampPalette(c('white','orange','blue')) 
) 


十 十 十 十 十 十 十 十 十 十 十 
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上 面 代码 获得 的 图 形 如 图 5-4 所 示 。 注 意 ， 有 儿 个 基因 在 不 同 突变 类 型 上 的 表达 水 平 显 着 不 
同 。 例 如 ， 基 因 X36275 at 的 表达 水 平 在 突变 ALLI/AFA 和 突变 BCR/ABL 之 间 显 著 不 同 。 在 上 
面 的 绘图 代码 中 ， 我 们 应 用 了 添加 包 lattice Hy PR levelplot( ) 。 该 国 数 可 以 绘制 一 个 数值 矩阵 的 
彩色 图 形 。 这 里 我 们 用 这 个 靖 数 来 绘制 按照 突变 类 型 来 排序 的 样本 表达 和 矩阵 。 

"+" ALLT/AFA; "-" BCR/ABL; "*" E2A/PBX1; "|" NEG 


EN 3 PN " — UU mcer TT TET IET ES TT 
a. T om SEC 3 s A 









cF POP ENS 


AME BORNE. C We un. i COEM ee: 
ete = SSS 上 


图 5-4 94 个 样本 的 30 个 基因 的 表达 水 平 


5.3.4 用 特征 聚 类 的 组 合 进 行 过 滤 

Anas FRIES BT 30 个 变量 类 ， 假 设 每 个 类 中 的 变量 相似 。 用 这 30 个 变量 类 来 得 到 组 
合 分 类 模型 。 组 合 分 类 模型 由 m 个 模型 构成 ， 每 个 模型 是 由 30 个 变量 来 获得 的 ， 其 中 每 个 变量 
是 从 这 30 个 变量 类 中 随机 选择 的 。 

组 合 方法 是 一 种 学 习 方 法 ， 它 构建 一 组 组 合 模 型 ， 然 后 用 这 组 模型 对 新 记录 的 预测 值 的 某 
种 形式 的 平均 来 对 该 记录 进行 分 类 。 就 目前 所 知 ， 组 合 方法 的 性 能 常常 超过 组 成 它 的 单个 模型 。 
组 合 模型 基于 单个 模型 间 的 某 种 形式 的 多 样 性 。 有 多 种 形式 来 创建 这 种 多 样 性 的 模型 。 例 如 ， 可 
以 通过 不 同 的 模型 参数 ,或 者 每 个 模型 用 不 同 的 训练 集 数 据 来 获得 不 同 的 模型 。 另 一 种 多 样 性 
方式 是 用 不 同 的 预测 变量 来 得 到 组 合 中 的 每 个 模型 。 本 节 的 组 合 方法 将 采用 后 一 种 方法 。 如 果 
用 于 获取 上 聚 类 的 原始 预测 变量 集合 有 高 度 的 元 余 ， 那 么 这 种 方法 将 很 奏效 。 假 设 ANOVA 过 滤 得 
到 的 变量 有 某 种 程度 的 元 余 。 我 们 通过 变量 聚 类 对 这 种 元 余 性 进行 建 模 。 嘻 类 方法 基于 距离 ， 本 
案例 中 是 变量 间 的 距离 。 如 果 两 个 变量 的 表达 水 平 在 94 个 样本 上 相似 ， 那 么 这 两 个 变量 就 是 接 
近 的 (所 以 它们 是 相似 的 )。 通 过 变量 聚 类 ， 我们 期 望 找到 相互 类 似 的 基因 组 。 添 加 包 Hmisc 有 
一 个 函数 实现 了 数据 集 变量 的 层次 聚 类 法 ， 该 函数 是 varclus( ) 。 下 面 给 出 用 该 函数 进行 变量 聚 
类 的 代码 ; 
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> library(Hmisc) 

> vc «- varclus(t(es)) 

> clus30 «- cutree(vc$hclust, 30) 
> table(clus30) 


clus30 


1 


2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 


27 26 18 30 22 18 24 46 22 20 24 18 56 28 47 32 22 31 18 22 18 33 20 20 21 
26 27 28 29 30 


17 


9 19 30 14 


我 们 应 用 函数 cutree( ) 得 到 了 由 30 TERA MHRA, Ki, RERBTAPRSDES 
( 即 基因 )。 基 于 这 个 聚 类 ， 我们 可 以 通过 在 每 个 变量 组 中 随机 选取 一 个 变量 来 构成 我 们 的 预测 
变量 集合 。 理 由 是 每 一 个 变量 组 的 成 员 变量 是 类 似 的 ， 因 此 有 某 种 程度 的 元 余 。 

为 了 方便 通过 随机 抽样 从 选 定 个 数 的 变量 组 (默认 30 组 ) 中 得 到 一 组 变量 ， 下 面 的 函数 实 
现 了 这 个 过 程 ;: 

> getVarsSet <- function(cluster,nvars=30, seed=NULL, verb-F) 


ef 
+ if (lis.null(seed)) set.seed (seed) 
+ 
+ cls <- cutree(cluster,nvars) 
+ tots <- table(cls) 
+ vars <- c() 
+ vars <- sapply(1:nvars,function(clID) 
+ | 
* if (!length(tots[clID])) stop( Empty cluster! (,clID,')') 
+ x <- sample(1:tots[clID],1) 
* names (cls[cls==cl1ID]) [x] 
* B 
+ if (verb) structure(vars, clusMemb=cls,clusTots=tots) 
+ else vars 
^ + } 
> getVarsSet (vc$hclust, 
[1] "X41346 at" "X33047 at" . "X1044 s at" "X38736_at" "139814. s at" 
[6] "X649 s at" "A41672 at"  —"X36845 at" “X40771_at" "X38370 at" 
[11] "X36083 at" "X34964 at" "135228 at" "A40855, at" "141038, at" 
[16] "X40495 at" "X40419 at" — "X1173 g at"  "X40088 at" "X879 at" 
[21] "X39135 at" "X34798 at" — "X39649 at" "139774 at" "X39581, at" 
[26] "X37024 at" "132585 at" . "X41184 s at" "X33305 at" "X41266 at" 
» getVarsSet(vc$hclust) 
[1] "X405B9 at" . "X33598 r at" "X41015, at" "138999 s at" "X37027 at" 
[6] "X32842 at" | "X37951 at"  "X35693 at" "K36874_at" "X41796_at" 
[11] "X1462_s_at" "X31751_f_at" "X34176 at" "X40855, at" "11583 at" 
[16] "X38488 s at" "X32542 at" ."X32961 at" "X32321 at" "X879. at" 
[21] "X38631. at" "X37718,. at" "X948 sa at" X "X38223 at" "X34256 at" 
[26] "X1788 s at" "X38271 at" "X37610 at" "X33936, at" "A36899 at" 


每 次 调用 这 个 函数 ， 都 得 到 新 的 一 组 30 个 变量 。 通 过 这 个 函数 ， 可 以 容易 得 到 由 不 同 的 预 
测 变量 所 构成 的 一 组 数据 集 ， 然 后 用 每 一 个 数据 集 进行 建 模 。 在 5.4 节 ， 我 们 给 出 用 这 种 策略 来 
获取 组 合 模型 的 函数 。 
特征 选择 算法 的 参考 文献 
在 许多 学 料 中 ， 特 征 选择 都 是 一 个 充分 研究 的 主题 。 在 数据 挖掘 领域 中 有 关 该 主题 的 优秀 
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概述 文章 和 参考 资料 是 Liun 和 Motoda (1998), Chizi 和 Maimon (2005) 以 及 Wettschereck 等 
(1997)。 


5.4 遗传 学 异常 的 预测 
本 节 描 述 用 于 预测 任务 的 整个 建 模 过 程 ， 预 测 B 细胞 ALL 样本 的 遗传 学 异常 类 型 。 


5.4.1 定义 预测 任务 

我 们 面 对 的 数据 控 掘 问题 是 一 个 预测 问题 。 精 确 地 说 ， 它 是 一 个 分 类 问题 。 预 测 分 类 任务 包 
含 用 一 组 预测 变量 的 信息 来 预测 一 个 名 义 目 标 变量 取 值 的 建 模 过 程 。 用 一 组 已 经 知道 其 所 研究 
的 对 象 所 属 分 类 的 观测 值 来 得 到 模型 ， 也 就 是 说 ， 这 些 观测 值 的 预测 变量 的 值 和 目标 变量 的 值 
是 已 知 的 。 

在 本 案例 中 ， 目 标 变量 是 B 细胞 ALL 样本 的 遗传 学 异常 分 类 。 在 我 们 所 选 的 数据 集中 ， 这 
个 变量 有 4 个 可 能 的 取 值 :， ALLI/AF4 BCR/ABL, E2A/PBXI 和 NEG。 预 测 变量 由 一 组 选 定 的 
基因 构成 ， 基 因 的 表达 水 平 是 已 知 的 。 在 建 模 过 程 中 ， 基 于 $.3 节 的 内 容 ， 我 们 用 选 定 基因 的 不 
同 集合 来 尝试 建 模 。 这 意味 着 随 着 这 些 实验 的 不 同 ， 预 测 变量 的 个 数 (特征 ) 会 变化 。 观 测 值 
由 94 个 B 细胞 ALL 个 案 构 成 。 
5.4.2 模型 评价 标准 

预测 任务 是 一 个 分 类 问题 。 预 测 分 类 模型 通常 用 误 分 率 或 者 它 的 对 立 面 一 一 正确 率 来 衡量 。 
然而 ， 也 有 其 他 的 评价 预测 分 类 模型 的 标准 ， 例 如 在 ROC 曲线 下 的 面积 、 配 对 的 指标 【( 即 决策 
dé ws AAA) 以 及 类 概率 估计 的 正确 率 (HU, Brier 分 数 ) 。R 的 添加 包 ROCR 给 出 了 这 
些 评价 标准 很 好 的 例子 。 

一 个 问题 评价 标准 的 选择 常常 取决 于 用 户 的 目的 。 由 于 信息 不 完整 ， 选 择 评价 标准 常常 是 
一 个 困难 的 决策 ， 例 如 缺乏 错误 地 把 本 来 属于 类 i 的 个 案 分 类 到 类 j 损 失 的 信息 ( 误 分 类 信息 )。 

在 本 章 的 案例 研究 中 ， 我 们 没有 误 分 类 损失 的 信息 。 因 此 ， 这 里 假设 每 个 误 分 类 的 严重 程度 
是 相同 的 ， 例 如 把 一 个 属于 类 E2A/PBX1 突变 误 分 为 类 NEG 的 损失 和 把 类 ALLI/AFA 误 分 为 类 
BCR/ABL 的 损失 相等 。 另外， 我 们 有 两 个 以 上 的 分 类 ， 而 ROC 分 析 还 没有 很 好 地 推广 到 多 类 问 
题 。 另 外 ， 近 来 发 现 应 用 ROC 曲线 下 的 面积 有 缺陷 问题 (Hand，2009) 。 基 于 上 面 的 分 析 ， 我 
们 用 标准 的 准确 率 评价 标准 ， 定 义 为 : | 


ge = 1 -F D lao) (5-1) 
这 里 是 测试 样本 的 大 小 ， 而 五 ,() 是 损失 函数 ， 其 定义 如 下 ; 
. 0 y =}, 

nly) = [ ^ d (5-2) 


5.4.8 实验 过 程 

这 里 的 数据 集中 观测 值 的 个 数 很 少 : 只 有 94 个 个 案 。 这 种 情况 下 ， 得 到 这 类 问题 误 分 率 可 
靠 估 计 的 较 好 实验 方法 是 弃 一 交叉 验证 法 (LOOCV), LOOCV 是 我 们 前 面 应 用 的 上 折 交 叉 验 证 实 
验方 法 的 一 个 特例 ， 即 为 观测 值 的 个 数 。 简 单 地 说 ，LOOCV 从 -1 个 个 案 获 取 一 个 模型 ， 一 
共 获 得 NN 个 模型 (NN 为 数据 集 的 大 小 ) ， 每 个 模型 由 那个 没有 用 于 建 模 的 观测 值 来 进行 验证 。 本 
书 提供 的 添加 包 函 数 loocv( ) 实现 了 这 种 实验 。 这 个 函数 应 用 的 过 程 与 前 面 章 节 描 述 的 其 他 实验 
比较 中 的 函数 类 似 。 下 面 的 代码 用 数据 集 iris 来 演示 该 函数 的 应 用 ， 


> data(iris) 
> rpart.loocv <- function(form,train,test,...) { 


75 


247 
t 
251 
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require(rpart,quietly-T) 
m <- rpart(form,train,...) 
p <- predict (m, test, type="'class') 
c(accuracy=ifelse(p == resp(form,test),100,0)) 
} | 
exp <- loocv(learner('rpart.loocv',list()), 
dataset (Species~.,iris), 
loocvSettings (seed=1234, verbose=F) ) 


++Vte++ + + 


> summary (exp) 

zz Summary of a Leave One Out Cross Validation Experiment == 
LDOCV experiment with verbose = FALSE and seed = 1234 

* Dataset :: iris 


* Learner :: rpart.loocv with parameters: 
* Summary of Experiment Results: 


accuracy 
avg 93.33333 
std 25.02795 
min 0.00000 
max 100.00000 


invalid 0.00000 
函数 loocv() 采用 3 个 常见 的 参数 : 模型 、 数 据 集 和 实验 的 设置 。 它 返回 一 个 loocvRun 类 对 


象 ， 我 们 可 以 用 函数 summary() 来 获取 该 类 对 象 的 结果 。 


用 户 定 义 的 函数 (上 例 中 为 rpart looev( ) ) 运行 模型 ， 应 用 模型 获取 测试 集 的 预测 值 ， 返 回 
希望 LOOCV 所 估计 的 评估 指标 向 量 。 在 上 面 的 例子 中 ， 它 简单 地 计算 模型 的 正确 率 。 这 里 要 记 
ft, 在 LOOCV 过 程 中 ， 每 一 个 实验 和 迭代 过 程 的 测试 集 是 由 一 个 单一 的 观测 值 构成 ， 所 以 这 里 我 
们 只 要 检查 预测 值 是 否 等 于 真实 值 。 

5.4.4 建 模 技术 

如 前 面 所 描述 ， 我 们 将 应 用 3 个 不 同 的 数据 集 ， 它 们 所 应 用 的 预测 变量 是 不 同 的 。 一 个 数据 
集 应 用 ANOVA 过 程 选择 的 所 有 基因 ， 另 外 两 个 从 这 些 基 因 中 选择 30 个 。 所 有 的 数据 集 都 包含 
94 个 B 细胞 ALL 个案。 除 目 标 变量 外 ， 所 有 信息 都 是 数值 型 的 。 

为 了 解决 这 类 问题 ， 我 们 应 用 三 种 不 同 的 建 模 技术 。 在 本 书 的 前 面 章 节 中 ， 我 们 已 经 应 
用 过 其 中 的 两 种 ， 它 们 是 随机 森林 和 支持 向 量 机 (SVM) 。 它 们 被 认为 是 最 好 用 的 预测 方法 之 
一 。 本 节 将 尝试 的 第 三 个 方法 是 一 个 新 的 算法 ， 它 是 一 种 基于 观测 值 之 间距 离 的 方法 ， 即 天 
近邻 方法 。 

基于 随机 森林 的 模型 特别 适合 于 处 理 有 大 量 特征 的 问题 。 这 个 特征 来 源 于 随机 森林 方法 所 
应 用 的 算法 , 它 从 问题 的 所 有 原始 变量 中 随机 选择 一 个 子 集 进行 建 模 (参见 5.4.4.1 节 )。 而 选 
择 大 近邻 方法 ， 其 动机 是 基于 这 样 的 假定 : 同一 类 型 的 突变 样本 有 类 似 的 基因 “签名 ”， 即 在 用 
于 描述 这 些 样本 的 基因 上 有 类 似 的 表达 值 。 这 个 假定 的 有 效 性 极 大 地 依赖 于 所 选 定 的 描述 样本 
的 基因 。 也 就 是 说 ， 这 些 基 因应 该 能 够 很 好 地 区 分 不 同 的 突变 类 型 。 在 5.4.4.2 节 可 以 看 到 , 
近邻 方法 利用 了 个 案 之 间 的 相似 性 ， 因 此 应 该 满足 上 面 的 假定 。 最 后 ， 支 持 向 量 机 用 来 尝试 找到 
基因 表达 和 遗传 学 异常 可 能 存在 的 非 线 性 关系 。 

3.4.2.2 节 描 述 了 支持 向 量 机 ， 它 们 是 高 度 非 线 性 的 模型 ， 可 以 用 于 回归 和 分 类 问题 。 而 
H, 在 R 的 多 个 不 同 的 支持 向 量 机 实现 中 ， 我们 选用 添加 包 e1071 的 svm() PET, 
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5.4.4.1 随机 森林 

随机 森林 是 组 合 模型 的 一 个 例子 (Breiman，2001) ， 也 就 是 说 ， 它 是 由 一 组 较 简 单 模型 形成 
的 。 特 别 地 ， 随 机 森林 由 一 组 决策 树 构成 ， 取 决 于 分 析 的 问题 采用 回归 树 还 是 分 类 树 。 用 户 决 定 
组 合 中 树 的 数量 。 每 棵 树 都 是 通过 自助 法 抽样 进行 训练 的 ， 自 助 法 抽样 从 原始 数据 集中 用 有 放 
回 抽 样 法 随机 抽取 NN 个 个 案 ， 这 里 和 N 是 数据 集中 个 案 的 个 数 。 每 一 个 这 样 的 训练 集 获得 一 个 不 
同 的 树 。 仅 仅 考 虑 原始 问题 预测 变量 的 一 个 随机 子 集 来 决定 这 些 树 的 每 一 个 结 点 ， 这 些 随机 子 
集 大 小 应 该 大 大 小 于 数据 集 预测 变量 的 个 数 。 这 些 树 完全 生长 ， 也 就 是 说 ， 它 们 没有 任何 事后 前 
枝 。 有 关 如 何 获 得 基于 树 的 模型 的 细节 ， 和 参见 2. 6.2 节 。 

采用 每 棵 树 的 预测 值 的 平均 值 作为 这 些 组 合 的 预测 值 。 对 于 分 类 问题 ， 则 采用 投票 机 制 。 对 
于 回归 问题 ， 对 每 一 棵 树 的 预测 值 进 行 平均 得 到 随机 森林 的 预测 值 。 

在 R 中 ,随机 森林 由 添加 包 randomForest 实现 。 本 书 已 经 给 出 了 多 个 应 用 该 包 中 的 随机 森林 
承 数 来 进行 特征 选择 的 例子 。 

随机 森林 模型 的 参考 文献 

随机 森林 模型 可 以 参考 Breiman (2001) 的 原始 文献 。 也 可 以 访问 网 站 http://stat-www. 
berkeley. edu/users/breiman/RandomForests/ 得 到 随机 森林 模型 的 更 多 资料 。 

5.4.4.2 天 近邻 方法 

k 近邻 方法 属于 懒 晴 学 习 算 法 。 这 类 算法 实际 上 没有 从 训练 数据 得 到 一 个 模型 。 它 们 简单 地 
存储 这 个 训练 集 数 据 。 算 法 的 主要 工作 在 于 预测 时 。 给 一 个 新 的 测试 个 案 ， 它 会 在 存储 的 训练 集 
中 寻找 类 似 的 个 案 作为 预测 值 。k 个 最 相似 的 训练 集 个 案 被 用 来得 到 给 定 测试 个 案 的 预测 值 。 在 
分 类 问题 中 ， 预 测 值 通过 投票 方法 得 到 ， 因 此 选用 的 上 值 最 好 为 奇数 。 然 而 ,一些 更 精细 的 投票 
方法 也 可 能 会 考虑 到 测试 个 案 与 不 个 近邻 中 每 一 个 的 距离 。 对 于 回归 问题 ， 它 采用 这 大 个 邻近 个 
案 目 标 变量 的 均值 而 不 是 投票 。 

这 类 模型 严重 依赖 于 个 案 之 间 相 似 性 的 标记 方式 。 这 类 相似 性 的 标记 通常 由 预测 变量 所 定 
义 的 输入 空间 上 的 一 个 测度 来 定义 。 这 个 测度 是 一 个 距离 蚂 数 ， 它 用 来 计算 代表 任何 两 个 观测 
值 之 间 差 异 的 一 个 数值 。 有 多 个 距离 孙 数 ， 常 见 的 是 欧 氏 距离 函数 ， 定 义 如 下 : 255 





d(x,,x,) = 


这 里 p 代表 预测 变量 的 个 数 ，x, Ax, 是 两 个 观测 值 。 

这 里 的 距离 对 于 所 选择 的 变量 标 度 和 变量 的 相关 性 很 敏感 ， 它 们 可 能 扭曲 相似 性 标记 。 另 
外 ， 变 量 的 标 度 应 该 是 一 致 的 ， 否 则 可 能 低估 一 些 较 低 均值 的 变量 间 的 差异 。 

选择 近邻 个 案 数 上 也 是 这 类 方法 的 一 个 重要 参数 。 常 见 的 上 值 选择 为 11, 3, 5, 7, 11}, 
但 这 仅仅 是 经 验 值 。 但 是 ， 要 避免 选择 较 大 的 上 值 ， 这 样 有 可 能 会 选用 远离 测试 个 案 的 样本 。 显 
然 ， 这 取决 于 训练 集 数据 的 密度 。 太 稀 玖 的 数据 集 更 可 能 导致 这 种 风险 。 和 其 他 训练 模型 一 样 ， 
“理想 ”的 参数 选择 可 以 通过 一 些 实验 方法 来 估计 。 在 R 中 ， 添 加 包 class (Venables and Ripley, 
2002) 中 所 包含 的 项 数 knn() 实现 了 上 近邻 方法 。 下 面 用 数据 集 iris 给 出 这 个 函数 的 一 个 示例 : 


> library(class) 

> data(iris) 

> idx <- sample(i:nrow(iris), as.integer(0.7 * nrow(iris))) 
> tr «- iris[idx, ] 

> ts <- iris[-idx, ] 

> preds <- knn(tr[, -5], ts[, -5], tr[, 5], k = 3) 

» table(preds, ts[, 5]) 


(5-3) 


178 + RRS 有 语言 


preds setosa versicolor virginica 
Betosa 14 0 0 
versicolor 0 14 2 
virginica 0 1 14 


从 上 面 代码 可 知 ， 函 数 knn() 应 用 的 是 一 个 非 标准 的 用 户 界面 。 第 一 个 参数 是 除了 目标 变 
量 所 在 列 以 外 的 训练 集 数据 ;第 二 个 参数 是 测试 集 ， 同 样 不 包含 目标 变量 值 ; 第 三 个 参数 是 训练 
集 数 据 的 目标 变量 值 ， 最 后 是 其 他 几 个 控制 本 方法 的 参数 ， 其 中 参数 控制 近邻 的 个 数 。 可 以 创 
建 一 个 函数 以 更 加 标准 的 公式 形式 的 界面 来 应 用 函数 knn( ) ， 代 码 如 下 ; 


> kNN <- function(form, train, test, norm = T, norm.stats = NULL, 
TIR E i 
require(class, quietly = TRUE) 
tgtCol <- which(colnames(train) == as.character(form[[2]])) 
if (norm) ( 
if (is.null(norm.stats)) 
tmp <- scale(train[, -tgtCol], center = T, scale = T) 
else tmp <- scale(train[, -tgtCol], center = norm.stats[[1]], 
scale = norm.stats[[2]]) 
train[, -tgtCol] «- tmp 
ms <- attr(tmp, "scaled:center") 
ss <- attr(tmp, "scaled:scale") 
test[, -tgtCol] <- scale(test[, -tgtCol], center = ms, 
scale = ss) 
J 
knn(train[, -tgtCol], test[, -tgtCol], train[, tgtCol], 
- 
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+} 
> preds.norm <- kNN(Species ~ ., tr, ts, k = 3) 
> table(preds.norm, ts[, 5]) 


preds.norm setosa versicolor virginica 


getosa 14 0 0 
versicolor 0 14 3 
virginica 0 1 13 


> preds.notNorm <- kNN(Species ^ ., tr, ts, norm = F, k = 3) 
> table(preds.notNorm, ts[, 5]) 


preds.notNorm setosa versicolor virginica 


setosa 14 0 0 
versicolor 0 14 2 
virginica 0 1 14 


上 述 函 数 允许 用 户 指明 是 否 在 调用 函数 knn( ) 之 前 对 数据 进行 标准 化 。 这 通过 参数 norm 来 
完成 。 在 上 面 的 例子 中 ， 有 两 个 应 用 它 的 例子 。 第 三 个 选择 是 给 参数 norm. stats 提供 一 个 两 元 素 
的 列表 ， 列 表 的 两 个 元 素 分 别 给 出 中 心 化 和 离散 程度 统计 量 。 如 果 没 有 应 用 参数 norm. stats, Ff 
么 函数 将 应 用 均值 作为 中 心 的 估计 值 ， 用 标准 差 作 为 离散 程度 的 估计 值 。 在 我 们 的 实验 中 ， 我 们 
将 用 中 位 数 和 四 分 位 距 作为 参数 来 调用 函数 。 在 本 书 提供 的 R 添加 包 中 包含 了 函数 kNN( ) ， 因 
此 你 不 必 手 工 输入 以 上 代码 。 

k 近邻 方法 的 参考 文献 

这 类 方法 的 标准 参考 文献 是 Cover 和 Hart (1967) 的 文章 。 该 方法 很 好 的 概述 可 以 参考 Aha 
等 (1991) 的 文章 以 及 Aha (1997) 的 文章 。 更 深入 的 分 析 可 以 参考 Aha (1990) 的 博士 论文 以 
及 Wettschereck (1994) 的 文章 。 一 个 不 同 于 懒惰 学 习 但 是 相关 的 方法 是 所 谓 的 “局 部 模型 ” 
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(Nadaraya, 1964; Watson，1964) 。 这 方面 的 优秀 文献 有 Atkeson 等 (1997) 的 文章 ，Cleveland 
和 Loader (1996) 的 文章 。 256 
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5.4.5 模型 比较 257 | 

本 节 描 述 应 用 LOOCC 实验 方法 来 比较 所 选 模型 的 过 程 。 

在 5.3 节 ， 我 们 学 习 了 几 个 特征 选择 的 例子 。 我 们 用 基本 的 过 滤 法 删除 了 较 小 变化 的 基因 和 
对 照 探 针 。 下 一 步 ， 我 们 应 用 基于 表达 水 平 在 目标 变量 上 的 条 件 分 布 方法 ， 该 方法 是 基于 
ANOVA 统计 检验 。 最 后 ， 从 ANOVA 检验 的 结果 中 ， 我 们 尝试 应 用 随机 森林 和 变量 聚 类 方法 来 
进一步 减少 基因 的 数目 。 除 了 第 一 个 简单 的 过 滤 法 外 ， 所 有 其 他 方法 都 某 种 程度 依赖 于 目标 变 
量 的 值 。 我 们 可 能 怀疑 这 些 过 滤 阶 段 是否 可 以 在 实验 比较 之 前 进行 ,或 者 是 否 可 以 把 这 些 过 波 
过 程 集成 到 比较 过 程 中 。 如 果 目 的 是 获得 对 新 样本 分 类 正确 率 的 无 偏 估计 ， 那 么 我 们 应 该 把 这 
些 过 滤 过 程 作 为 需要 评估 和 比较 的 数据 挖掘 过 程 的 一 部 分 。 理 则 ， 它 意味 着 我 们 得 到 的 估计 是 
有 偏 的 ， 因 为 应 用 测试 集 信息 去 获得 建立 模型 的 基因 。 事 实 上 ， 如 果 我 们 用 整个 数据 集 来 决定 应 
用 哪些 基因 ， 那 么 在 这 个 选择 过 程 中 就 应 用 了 那些 作为 测试 集 的 一 部 分 信息 ， 这 些 信 息 应 该 是 
未 知 的 。 基 于 此 ， 我 们 把 过 滤 阶 段 包 含 进 用 户 定义 的 函数 中 ， 这 些 函 数 实现 了 我 们 要 比较 的 
模型 。 

对 于 LOOCV 过 程 的 每 一 次 迭代 ， 在 创建 预测 模型 之 前 ， 只 采用 LOOCY 函数 提供 的 训练 集 
进行 特征 选择 过 程 。 初 始 的 过 滤 过 程 将 在 LOOCYV 比较 之 前 进行 ， 如 果 我 们 在 LOOCV 过 程 之 内 
进行 简单 过 滤 过 程 ， 那 么 这 一 步骤 中 剔除 的 基因 将 不 发 生变 化 。 对 照 探 针 总 是 第 剔除 ， 如 果 没 有 
给 出 一 个 单一 样本 ， 那 么 由 于 低 方差 被 剔除 的 基因 将 仍旧 非常 可 能 被 剔除 (这 是 LOOCV 过 程 每 
一 次 选 代 所 做 的 ) 。 

我 们 将 描述 为 运行 实验 需要 提供 给 函数 LOOCY 的 用 户 定义 函数 。 对 于 每 一 个 建 模 技术 ， 我 
们 将 评估 几 个 变 体 。 这 些 变 体 不 仅 在 模型 本 身 的 几 个 参数 上 有 所 不 同 ， 而 且 它 们 所 应 用 的 特征 
选择 过 程 也 不 相同 。 下 面 的 列表 给 出 了 每 个 建 模 技 术 的 这 些 变 体 的 信息 。 


> vars <- list() 
> vars$randomForest <- list (ntree=c (500,750,100), 
+ mtrysc(5,15,30), 
fs.meth=list(list(‘all'), 
list ('rf',30), 
list('varclus',30,50))) 
vars$svm <- list(cost=c(1,100,500), - 
gamma=c(0.01,0.001,0.0001), 
fs.meth-list(list('all'), 
listÜrf',30), 
list('varclus',30,50))) 
vars$knn «- list(k-c(3,5,7,11), 
norm=c(T,F), 
fs.meth-list(list('all'), 
listÜrf',30), 
list('varclus',30,50))) 


上 面 的 列表 含有 3 个 元 素 ， 每 个 元 素 对 应 于 一 个 需要 比较 的 算法 。 对 于 每 个 模型 ， 该 列表 包 
含 了 应 该 用 到 的 参数 。 对 于 每 一 个 参数 ， 给 出 了 一 组 可 选 值 。 所 有 这 些 值 的 组 合 将 决定 系统 的 不 
同 变 体 。 对 于 随机 森林 ， 考 虑 参数 ntree 的 3 个 值 ， 它 设 定 组 合 中 树 的 个 数 。 人 参数 my 有 3 个 值 ， 
当 用 于 确定 每 个 树 结 点 的 检验 时 ， 该 参数 决定 变量 的 随机 子 集 的 大 小 。 最 后 一 个 参数 fs. meth H 
供 了 我 们 下 面 将 描述 的 特征 选择 阶段 的 选项 。 对 于 支持 向 量 机 ， 参 数 cost 和 参数 gamma 都 考虑 3 
个 取 值 。 对 于 上 近邻 方法 ， 考 虑 参数 上 的 4 个 值 ， 对 于 决定 是 否 标准 化 预测 变量 数据 的 参数 ， 考 
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些 变 体 的 实验 需要 很 长 一 段 时 间 ”。 除 非 你 意识 到 时 间 的 限制 ， 否 则 这 里 不 建议 你 运行 下 面 的 实 
验 。 实 验 的 结果 在 本 书 的 网 站 上 ， 你 可 以 不 用 运行 这 些 实验 而 继续 进行 后 面 的 结果 分 析 。 运 行 实 


验 的 代码 如 下 : 
> require(class,quietly-TRUE) 
> require(randomForest,quietly-TRUE) 
> require(e1071,quietly=TRUE) 
> load(myALL.Rdata') 
> es <- exprs(ALLb) 
> # simple filtering 
> ALLb <- nsFilter(ALLb, 
+ var.funcsIQR,var.cutoffzIQR(as.vector(es))/5, 
+ feature. exclude="“AFFX") 
> ALLb «- ALLb$eset 
> # the dataset 
> featureNames(ALLb) <- make.names(featureNames(ALLb)) 
> dt <- data.frame(t(exprs(ALLb)) ,Mut=ALLb$mol . bio) 
» DSs «- list(dataset(Mut ^ .,dt,'ALL')) 
» & The learners to evaluate 
> TODO <- c(knn','svm','randomForest!) 
> for(td in TODO) { 
+  assign(td, 
experimentalComparison( 
DSs, 
cf 
do.call('variants', 
c(list ('genericModel', learner=td), 
vars [[td]] r 
varsRootName=td) ) 


Js 
loocvSettings (seed=1234, verbose=F) 
) 


+eeeeeee he + + 


+ 


nA file=paste(td,'Rdata',sep='.')) 
+} 
ET S4 ES iz Hi K% experimentalComparison( ) 来 测试 应 用 LOOCY 方法 的 所 有 变 体 。 上 面 代 
码 用 函数 variants( ) 来 生成 变 体 的 所 有 leamer 对 象 ， 从 前 面 可 知 ， 这 些 变 体 由 参数 vars 给 出 的 列 
表 元 素 提供 。 每 一 个 变 体 由 一 个 LOOCV 过 程 来 评估 。 上 面 代码 的 结果 是 3 个 compExp HR, € 
们 分 别 命名 为 knn, svm 和 randomForest。 这 些 结果 对 象 包含 相应 训练 方法 变 体 的 结果 ， 所 有 这 些 
恋 体 的 结果 存储 在 以 训练 方法 名 为 文件 各， 以 “. Rdata” 为 后 缀 的 文件 中 。 在 本 书 的 网 站 中 有 这 
些 结果 文件 。 因 此 ， 你 如 果 没 有 运行 上 面 的 实验 ， 你 可 以 下 载 这 些 文件 到 你 的 本 地 计算 机 中 ， 然 
后 用 函数 load( ) (以 相应 文件 的 名 称 为 参数 ) KRA R 软件 : 
> load("knn.Rdata") 


> load("svm.Rdata") 
> load("randomForest.Rdata") 


一 个 训练 方法 的 所 有 变 体 的 结果 保存 在 相应 的 对 象 中 。 例 如 ， 如 果 需 要 检查 哪 一 个 支持 向 
量 机 变 体 最 好 ， 可 以 用 下 列 命令 : 


> rankSystems(svm, max - T) 


$ALL 


日 、 在 我 的 标准 配置 的 桌面 计算 机 上 ， 运 行 以 上 代码 大 约 需 要 3 X. 
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虑 2 个 值 。 

如 前 所 述 ， 对 于 每 个 训练 方法 ,我 们 考虑 3 个 不 同 的 特征 集合 (由 参数 fs. meth 设 定 ) 。 第 
一 个 选择 (list(' all’ )) 应 用 ANOVA 统计 检验 得 到 的 所 有 特征 。 第 二 个 选择 (list( “下 "，30)) 
通过 随机 森林 排序 的 方法 ， 从 ANOVA 检验 得 到 的 特征 中 选择 30 个 基因 。 最 后 一 个 选择 应 用 前 
面 描述 的 变量 育 类 组 合 策略 选择 30 个 基因 ， 然 后 从 变量 聚 类 中 随机 选择 30 个 预测 变量 ,建立 50 
个 模型 的 组 合 模 型 。 为 了 实现 上 面 基 于 从 基因 至 类 中 选择 不 同 的 变量 集 的 组 合 方法 ， 我们 建立 
TENAX: 

> varsEnsembles <- function(tgt,train,test, 

+ varsSets, 


baseLearner,blPars, 
verb=F) 


m 


preds <- matrix(NA,ncol=length(varsSets) ,nrow=NROW(test)) 
for(v in seq(along=varsSets)) { 
if (baseLearner=='knn') 
preds[,v] <- knn(train[,-which(colnames(train)==tgt)], 
test [,-which(colnames(train)==tgt)], 
train[,tgt],blPars) 
else { 
m <- do.call(baseLearaer, 
c(list(as.formula(paste(tgt, 
paste(varsSets[[v]], 
collapse='+'), 
sep='~")), 
train[,c(tgt,varsSets[[v]])]), 
5lPars) 
) 


if (baseLearner == 'randomForest') 
preds[,v] <- do.call('predict', 
list (m,test[,c(tgt, varsSets[[v]])], 
type='response' )) 
else 
preds[,v] <- do.call('predict', 
list (mn, test [,c(tgt, varsSets[[v]])])) 
} 
} 
ps <- apply(preds,1,function(x) 
levels (factor (x)) [which.max(table(factor(x)))]) 
ps <- factor(ps, 
levels=1:nlevels(train[,tgt]), 
labels-levels(train[,tgt])) 
if (verb) structure(ps,ensemblePreds-preds) else ps 


生生 二 二 二 二 十 二 二 二 本 二 二 二 二 二 和 


十 


上 面 函 数 的 第 一 部 分 参数 是 目标 变量 名 、 训 练 集 、 测 试 集 。 下 一 个 参数 (varsSets) 是 一 个 
含有 变量 名 (得 到 的 聚 类 ) 集合 的 列表 ， 我 们 应 该 从 该 变量 集 人 台中 抽取 一 个 变量 作为 组 合 的 每 
一 个 成 员 的 预测 变量 。 最 后 两 个 参数 (baseLearner 和 blPars) 给 出 了 组 合 的 每 个 成 员 所 应 用 的 训 
练 方 法 的 函数 实现 的 名 称 以 及 相应 的 参数 列表 。 上 面 责 数 的 结果 是 组 合 方法 对 给 定 测试 集 的 预 
测 值 。 这 些 预 测 是 组 合 的 成 员 通过 投票 机 制 产 生 的 。 组 合 的 成 员 之 间 的 差别 在 于 它们 所 应 用 的 预 
测 变量 ， 这 些 预测 变量 由 参数 varsSets 确定 。5. 3. 4 节 给 出 了 这 种 从 变量 聚 类 过 程 得 到 预测 变量 集合 
的 方法 。 考 虑 到 每 一 种 训练 方法 所 进行 的 任务 是 相似 的 ， 因 此 我 们 建立 了 一 个 用 户 定 义 的 模型 销 
数 ， 它 把 所 应 用 的 训练 方法 作为 参数 之 一 。 函 数 genericModel() 实现 了 这 种 方法 ， 代 码 如 下 ; 
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> genericModel <- function(form,train,test, 


和 十 十 中 二 十 十 二 二 二 二 十 二 二 本 二 二 二 二 二 二 二 二 二 二 


在 函数 LOOCV 的 每 一 次 迭代 中 ， 将 调用 上 面 的 用 户 征 义 函 数 。 在 微 阵列 数据 上 完成 所 有 这 


} 


learner, 
fs.meth, 
-— 


cat('=') 
tgt <- as.character(form[[2]]) 
tgtCol <- which(colnames(train)==tgt) 


# Anova filtering 

f <- Anova(train[,tgt],p-0.01) 

ff <- filterfun(f) 

genes <- genefilter(t(train[,-tgtCol]),ff) 
genes «- names(genes) [genes] 

train <- train[,c(tgt,ganes)] 

test «- test[,c(tgt,genes)] 

tgtCol <- 1 


# Specific filtering 
if (fs.meth[[1]]*-varclus') { 
require(Hmisc,quietly-T) 
v <- varclus(as.matrir(train[,-tgtCol])) 
VSs <- lapply(1:fs.meth[[3]] , function(x) 
get VarsSet (v$hclust,nvarsefs.meth[[2]])) 
pred <- varsEnsembles(tgt,train,test,VSs,learner,list(...)) 


} else { 
if (fs.meth[[{1]]=='rf') { 
require (randomForest , quietly=T) 
rf <- randomForest (form, train, importance=T) 
imp <- importance(rf) 
imp <- imp[,ncol(imp)-1] 


rf.genes <- names(imp) [order(imp,decreasing-T) [1:fs.meth[[2]]]] 


train <- train[,c(tgt,rf.genes)] 
test <- test[,c(tgt,rf.genes)] 
} 


if (learner == 'knn') 
pred <- kNN(form, 
train, 
test, 


norm.statselist(rowMedians(t(as.matrix(train[,-tgtCol]))), 
rowIQRs(t(as.matrix(train[,-tgtCol])))), 


T 
else { 
model <- do.call(learner,c(list(form,train),list(...))) 
pred <- if (learner l= 'randomForest') predict (model,test) 
else predict (model, test ,type='response' ) 


} 


c(accuracy=ifelse(pred == resp(form,test),100,0)) 
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$ALL$accuracy 
system score 
1 svm.v2 86.17021 
2 svm.v3 86.17021 
3 svm.v5 86.17021 
4 svm.v6 86.17021 
5 svm.v9 86.17021 


PK% rankSystems( ) 用 一 个 类 compExp 对 象 为 参数 ， 获 得 实验 过 程 中 所 估计 的 每 一 个 评估 指 
标的 最 好 变 体 。 在 默认 情况 下 ， 该 函数 假设 最 小 值 意味 着 “最 好 ”。 如 果 最 大 值 意味 着 “最 好 ”， 
例如 正确 率 ， 则 可 以 如 上 所 示 应 用 参数 max ” 。 为 了 得 到 所 有 实验 的 总 体 情 况 ， 可 以 用 下 面 代码 
把 3 个 结果 对 象 结合 在 一 起 : 


> all.trials <- join(svm, knn, randomForest, by = "variants") 


通过 结合 在 一 起 的 compExp 对 象 ， 可 以 检查 我 们 实验 中 总 体 最 好 的 分 数 : 
> rankSystems(all.trials, top = 10, max = T) 


$ALL 

$ALL$accuracy 
system score 
knn.v2 88.29787 
knn.v3 87.23404 

randomForest.v4 87.23404 

randomForest.v6 87.23404 
svm.v2 86.17021 
svm.v3 86.17021 
svm.v5 86.17021 
gvm.v6 86.17021 
svm.v9 86.17021 
8vm.v23 86.17021 


获得 最 高 分 数 的 是 & 近 邻 方 法 的 一 个 变 体 。 下 面 查 看 该 变 体 的 特征 : 


> getVariant("knn.v2", all.trials) 


= (D C) s CO Oi b OD HN oe 


e 


Learner::  "genericModel" 


Parameter values 
learner =  "knn" 
k = B . 
norm = TRUE 
fs.meth = list("rf", 30) 


该 变 体 应 用 随机 森林 过 滤 出 的 30 个 基因 、5 个 近邻 ， 并 对 基因 表达 水 平 进 行 标 准 化 。 有 趣 
的 是 ， 在 最 高 的 10 个 分 值 中 ， 只 有 最 后 一 个 (“svm. v23”) 的 30 个 基因 不 是 应 用 随机 森林 过 波 
得 到 的 。 这 第 10 位 最 好 的 模型 应 用 ANOVA 过 滤 出 的 所 有 基因 。 注 意 ， 这 10 个 模型 的 正确 率 分 
值 很 相似 。 事 实 上， 考虑 到 我 们 有 94 个 测试 样本 ， 最 好 模型 的 正确 率 意 味 着 有 11 个 样本 分 类 错 
误 ， 而 第 10 位 最 好 的 模型 有 13 个 错误 。 

也 许 需要 知道 模型 (例如 ， 最 好 的 模型 ) 犯 了 哪 种 类 型 的 错误 。 混 清和 矩阵 提供 了 这 种 类 型 
的 信息 。 为 了 得 到 混淆 和 矩阵， 需要 知道 模型 预测 值 对 应 的 真实 值 。 我 们 的 用 户 定义 函数 没有 输出 


己 ”如 果 我 们 有 多 个 评 居 指标， 有 些 指标 需要 最 小 化 ， 其 他 需要 最 大 化 。 可 以 设置 参数 max 为 布尔 值 向 量 。 
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预测 值 ， 它 只 给 出 了 决策 正确 率 。 因 此 ，compExp 对 象 没有 这 种 信息 。 如 果 我 们 需要 这 种 额外 的 
信息 ， 在 实验 过 程 的 每 一 次 迭代 中 ， 在 计算 评估 指标 的 顶部 ， 可 以 使 用 户 定 义 函 数 返回 这 些 信息 
并 赋 给 实验 比较 过 程 。 如 第 4 章 所 示 ， 这 里 用 于 接收 和 存储 这 些 额外 信息 。 设 想 我 们 需要 知道 最 
好 的 模型 在 LOOCYV 过 程 的 每 一 次 迭代 中 的 预测 值 。 下 面 的 代码 让 我 们 获取 这 些 信息 。 下 面 的 代 
码 着 重 于 最 好 的 模型 ， 当 然 可 以 简单 地 修改 使 它 可 以 应 用 于 其 他 模型 。 


> bestknn.loocv <- function(form,train,test,...) { 
+  require(Biobase,quietly-T) 
require (randomForest , quietly=T) 
cat ('=') 
tgt <- as.character(form[[2]]) 
tgtCol <- which(colnames(train)==tgt) 
# Anova filtering 
f <- Anova(train[,tgt] ,p=0.01) 
ff «- filterfun(f) 
genes <- genefilter(t(train[,-tgtCol]),ff) 
genes <- names(genes) [genes] 
train <- train[,c(tgt,genes)] 
test <- test[,c(tgt,genes)] 
tgtCol <- 1 
# Random Forest filtering 
rf <- randomForest (form, train, importance=T) 
imp <- importance (rf) 
imp <- imp[,ncol (imp)-1] 
rf.genes <- names(imp) [order (imp, decreasing=T) [1:30]] 
train <- train[,c(tgt,rf.genes)] 
test <- test[,c(tgt,rf.genes)] 
* knn prediction 
ps <- ENN(forn,train,test,norm=T, 
norm. stats=list (rowMedians(t(as.matrix(train[,-tgtCol]))), 
rowIQRs(t(as.matrix(train[,-tgtCo1])))), 
k=5,...) 
structure(c(accuracy=ifelse(ps == resp(form,test),100,0)), 
itInfo=list (ps) 
) 
} 
resTop <- loocv(learner('bestknn.loocv',parszlist()), 
dataset(Mut^.,dt), 
loocvSettings (seed=1234, verbose=F), 
itsInfo=T) 


PA3X bestknn. loocv( ) SE hx E Je Hi (Hl Se 7 BY PR SX genericModel() 的 特例 ， 它 设 定 5 个 近邻 ， 
应 用 随机 森林 过 滤 法 ,应 用 中 位 数 和 四 分 位 距 来 进行 标准 化 。 除 了 它 的 返回 结果 部 分 以 外 ， 大 部 
分 的 代码 和 函数 genericModel( ) 一 样 。 这 个 新 函数 不 是 返回 模型 的 正确 率 ， 它 返回 一 个 结构 。 如 
之 前 描述 的 那样 ， 征 构 是 一 种 有 附加 属性 的 ROR. PBK structure() 可 以 通过 附加 一 组 属性 来 
创建 这 种 “丰富 ”的 对 象 。 在 我 们 的 用 户 定义 函数 中 ， 如 果 我 们 需要 为 函数 loocv( ) 返回 一 些 
额外 信息 ， 我 们 就 应 该 在 一 个 名 为 itsInfo 的 属性 中 完成 。 在 上 面 的 函数 中 ， 我 们 应 用 这 个 属性 返 
回 模型 的 预测 值 。 在 函数 loocv( ) 中 存储 实验 过 程 的 每 一 次 迭代 给 出 的 这 个 信息 。 为 了 让 函数 
loocv( ) 保存 这 些 信息 ,需要 应 用 可 选 参数 itsInfo =T 来 调用 函数 looev( ) 。 这 可 以 确保 用 户 自 定 
义 函 数 返 回 的 任何 内 容 可 以 作为 一 个 名 为 itsInfo 的 属性 ， 该 属性 将 收集 在 一 个 列表 中 ， 并 作为 函 
数 looev( ) 的 结果 中 名 为 itsInfo 的 属性 返回 。 最 后 ， 我 们 可 以 检查 这 一 信息 ， 即 检查 每 一 次 迭代 
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中 最 好 模型 的 预测 值 。 

为 了 检查 包含 我 们 所 需要 信息 的 属性 内 容 ， 可 以 应 用 如 下 代码 〈 下 面 只 显示 了 开始 的 4 个 
预测 值 ) : 

> attr(resTop, "itsInfo")[1:4] 


[[1]] 
[1] BCR/ABL 
Levels: ALL1/AF4 BCR/ABL E2A/PBX1 NEG 


[[21] 
[1] NEG 
Levels: ALLi/AF4 BCR/ABL E2A/PBXi NEG 


[[3]] 
[1] BCR/ABL 
Levels: ALLi1/AF4 BCR/ABL E2A/PBXi NEG 


[[4]] 
[1] ALL1/AF4 
Levels: ALL1/AF4 BCR/ABL E2A/PBX1 NEG 


TW FERES attr( ) 可 以 获取 一 个 R 对 象 的 任何 属性 值 。 我 们 知道 ， 属 性 itsInfo 含有 LOOCV 过 
程 每 次 迭代 的 预测 值 。 应 用 这 些 信息 和 数据 集 的 真实 值 ， 可 以 得 到 混 消 和 矩阵 ， 代 码 如 下 : 


> preds <- unlist(attr(resTop, "itsInfo")) 
> table(preds, dt$Mut) 


preds ALL1/AF4 BCR/ABL E2A/PBX1 NEG 
ALL1/AF4 10 0 0 0 
BCR/ ABL 0 33 0 4 
E2A/PBX1 0 0 3 1 
NEG 0 4 2 37 


可 以 用 混 消 矩阵 来 检查 模型 所 犯错 误 的 类 型 。 例 如 ， 模 型 正确 地 预测 了 所 有 的 罕 变 类 型 为 
ALLI/AF4 的 样本 。 同 时 ， 我 们 观测 到 模型 所 犯 的 大 部 分 错误 是 把 一 个 具有 某 些 突变 的 个 案 预 测 
为 类 NEG。 然 而 ， 模 型 也 把 S 个 没有 突变 的 样本 错误 地 预测 为 有 某 些 异常 。 | 266 | 


5.5 小 结 


本 章 的 主要 目的 是 介绍 R 社 区 十 分 关注 的 数据 挖掘 领域 : 生物 信息 学 中 的 一 系列 应 用 。 这 
里 探索 了 Bioconductor 项 目的 一 些 工具 ， 该 项 目 提供 了 专用 于 生物 信息 学 中 应 用 问题 的 大 量 R 添 
加 包 。 作 为 一 个 具体 的 例子 ， 我 们 着 重 于 生物 信息 学 预测 任务 : 预测 与 患 有 急性 淋巴 细胞 白血病 
的 病人 样本 相关 的 基因 突变 类 型 。 基 于 从 微 阵 列 实 验 得 到 的 一 组 基因 的 表达 水 平 信息 ， 建 立 了 
多 个 分 类 模型 。 就 数据 挖掘 概念 而 言 ， 本 章 着 重 于 下 列 主题 : 

e 有 大 量 预测 变量 问题 的 特征 选择 方法 。 

e 分 类 方法 。 

© 随机 森林 。 

e 上 近邻 方法 。 

e 文 持 问 量 机 。 

e 用 不 同 的 预测 变量 集合 进行 组 合 。 
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。 弃 一 交叉 验证 法 。 
对 于 R 而 言 ， 我 们 学 习 了 几 种 新 的 技术 : 
e 如 何 处 理 微 阵列 数据 。 
e 应 用 ANOVA 检验 比较 几 组 数据 的 均值 。 
© 在 分 类 问题 中 用 随机 森林 来 选择 变量 。 
e 变量 聚 类 。 
。 获得 用 不 同 预测 变量 建立 的 模型 的 组 合 。 
e 获得 上 近邻 模型 。 

[267 © 用 弃 一 交叉 验证 法 估计 模型 的 精度 。 
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3 


Self-training ( 自我 训练 ) 223-229 
Semi-supervised learning ( 半 上 监督 学 习 ), 186 
Sequences 《序列 ) ，14 

of factors (因子 ), 15 

of integers ( 9%), 14 

of reals 【实数 )，14 

random ( 随机 ) , 16 

with repetitions (EW), 15 
Sharpe ratio (夏普 比率 ), 132 
Shorth, 239 
Similarity (相似 性 ) , 184, 255 
Sliding window (滑动 窗口 ) 122 
Standardization (标准 化 ), 62, 124, 182, 245 
Statistics of centrality (中 心 趋势 统计 量 ) 55, 179, 

240, 257 
Stratified samples ( 分 屋 抽 样 ) 194 
Strip plots (条 状 图 ) ,51 
Student ¢ distribution (Æ t 4f) , 16 
Summary statistics 《汇总 统计 量 ) , 43 
Supervised learning (有 监督 的 学 习 ), 184, 185 
Support vector machines ( 支持 向 量 机 ) ，126- 129， 

187, 254 

T 


T indicator (T 指标 ) 108 
Technical indicators 【技术 指标 ) 112 
Time classes ( Time 2&) , 99 
POSIX: (POSIX: 2&) , 99 
Data (Date 2&) , 99 
Time series ( FH [E)FF PU) , 97 
Trading simulator 【交易 仿真 器 ) , 133 
Trading strategies ( XHW), 131 
Type coercion (类 型 转换 ), 8 
U 
Unknown values 【缺失 值 ) 52-63 
imputation strategies (缺失 值 蔡 换 策略 ) , 53 
Unsupervised learning (无 监督 学 习 ), 184 
V 


Vectorization (向 量化 ), 10-11 


Vectors (向 量 ) , 7-9 
adding elements (加 性 元 素 ), 9 
arithmetic (算术 ), 10 
creating ( 创建 ) 8 
empty vector (空间 量 ) , 9 
indexing (1x51), 8 
length ( KFZ), 7 
naming elements (命名 元 素 ), 18 
recycling (MAFF), 10 
removing elements ( ££ Bk 7C 3X ) , 9 
sub-setting ( 35) , 16 
W 


Web sites (网 站 ) 
CRAN mirrors (CRAN 镜像 ), 4 
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MySQL, 2, 35 

R, 3 

R mailing lists (R 邮件 列表 ) , 1 
this book (2x35) , 2 


Weka, 218 
Wilcoxon tests ( Wilcoxon 检验 ) 89 
Working directory (工作 目录 ) 


changing (更 改 ), 35 
checking (查看 ), 35 
X 


xts objects (xts X $8) , 98 


creating (创建 ) 98 
indexing (索引 ) , 99 
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D 


Data pre-processing (数据 预 处 理 ) 

creating new variables (建立 新 变量 )， 
108-112 
feature selection (变量 选择 ) 112-117, 
241-251 

standardization (标准 化 ), 62, 124 
unknown values ( 缺失 值 ) 52-63 

Data summarization ( 数据 汇总 ) , 43-52, 239, 240 
basic statistics 【基本 统计 量 ) , 43, 167-174 
comparing distributions ( 比较 分 布 ) 179-183 
correlation (#H3€), 56 
inter-quartile range ( 四 分 位 距 ), 44, 47, 179, 241 
measures of centrality ( 中 心 趋势 度量 ), 179 
measures of spread (离散 型 度量 ), 179 

Data visualization (数据 可 视 化 ), 43-52 
bar plot (条 形 图 ), 168 
box plot (EE) , 47, 171 
box-percentile plot ( 分 位 数 箱 图 ) , 49 
candlestick graphs (K 线 图 ) 110 
conditioned box plot (条 件 箱 图 ), 49 
conditioned histogram (条 忻 直 方 图 ) , 59 
conditioned strip plot (条 件 条 状 图 ), 50, 60 
histogram (直方 图 ), 44, 239 
interacting with plots (图 形 交 互 ), 48, 80 
level plot (KFE) , 248 
log scales (对 数 尺度 ), 171 


Q-Q plot (Q-Q 图 ), 45 
strip plot. ( ARE), 50 


Descriptive models (描述 性 模型 ) 


LOF, 201-204 

OR, , 205-208 

box plot rule ( 箱 图 准则 ) , 173, 196-201 

clustering of variables ( ¥ERÆ), 250 

hierarchical agglomerative clustering ( ke #2), 
205, 250 


E 


Evaluation criteria 【评价 准则 ) 


NDTP, 193 

accuracy (正确 率 ), 119, 252 

AUC, 252 

Brier score ( Brier 分 值 ) 252 

confusion matrix (EEPE), 119, 266 

cumulative recall charts ( ROC 图 ) 192 

error rate ( 误 分 率 ) , 119 

errors scater plot (误差 散 点 图 ) , 79 

F-measure (下 上 度量), 120 

financial trading criteria (金融 交易 准则 )，132， 
138-141, 158-161 

lift charts (提升 图 ) , 191 

mean absolute error (评价 绝对 偏差 ), 77 

mean squared error (257; RH) , 78 

misclassification costs ( 误 分 损失 ) , 252 

normalized mean squared error ( fg HE [E 15] 77 ix 
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25), 78 
precision (决策 精确 度 ) 119, 188, 252 
precision/recall curves 《决策 精确 度 / 回 湖 精确 度 
曲线 ) , 188-191 
recall ( [P| AFH WARE), 119, 188, 252 
Evaluation methodologies ( PEfft H) 
cross-validation ( 47 Y RUE), 81-91 
hold-out ( 保留 ) 194-195 
leave-one-out cross-validation ( 3&— 35 X. Ir uE TE ) , 
253-254 , 258-266 
Monte Carlo (蒙特 卡 罗 ), 141-156 
significance of diffierences (显著 性 不 同 ), 89, 153 
stratified samples (分 层 抽 样 ) 194 
M 


Modeling tasks ( 建 模 任务 ) 
class imbalance 〈 类 失衡 ) 
SMOTE (SMOTE 方法 ) 210 
classification (分 类 ), 117, 185 
class imbalance (类 失衡 ) 119, 185, 
209-211 
clustering ( 35) , 184 
outlier detection ( 5E AE (A (ima), 184 
regression ( 回归) , 63-93, 117 


semi-supervised classification 〈 半 监督 分 类 ) , 187 
semi-supervised clustering (3E UY EEA) , 186 
time series forecasting (了 时间 序 列 预 测 )， 
120-130 

growing window 《生长 窗口 ), 122 

regime shift ( KEPI), 121 

sliding window 《 潮 动 窗口 ), 122 

P 


Predictive models {预测 模型 ) 

AdaBoost ( AdaBoost 方法 ) , 217-223 

artificial neural networks ( A. T. f8 & Rd f$), 
123-126 

k-nearest neighbors (k 近邻 方法 ) , 255-257 

multiple linear regression 〈 索 元 线性 回归 ) , 64-71 

multivariate adaptive regression splines (30 Él if. 
回归 样 条 ) , 129-130 

Naive Bayes (简单 贝 叶 斯 ), 211-217 

random forests (随机 森林 ), 88, 254-255 

regression trees ( 回归 树 ) , 71-77 

self-training ( 目 训 练 ) 187, 223-229 

support vector machines ( 支持 向 量 机 ) , 
126-129, 254 
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abline(), 47, 48, 79, 80 
abs (), 78, 80 
adaboost.Ml (}, 218 
AdaBoostMIl (), 218, 219 
addAvgPrice(), 111 
addT.ind(), 111 
aggregate(), 171 
Anova(), 245 

anova(), 67-69 
aperm(), 200 

apply(), 54, 64, 242 
array(), 21 
as.double(í), 173 
as.formula(í), 86 
as.integer(), 64 
as.xts(), 102 
attach(), 28, 176 
attr(), 200, 266 


bestScores(), 86, 88, 89 
boxplot (), 17, 171 
boxplot.stats(), 173, 180 
buildModel (), 114-116 
bwplot(), 49 


e(), 25 

candleChart (), 110, 111 
cat(), 33 

cbind(}, 20 

ceiling(), 178, 242 
centrallmputation(), 56 
colnames (), 21 
compAnalysis(), B9, 91, 153 
complete.cases(), 53, 64 
cor(), 56, 57 
coredata(), 101 

CRchart (), 192 

cummaxií), 190 


cutree(), 250 


daisy(), 201, 207 
data(), 30 
data.frame(), 26 
dataset(), 83 
dbConnect (), 107 
dbDisconnect (), 107 
dbDriver(), 107 
dbGetQuery(), 107 
dbUnloadDriver(), 107 
Delt (), 110 
density(), 45 
describe(), 44, 167 
detach(), 28, 176 
dim(), 19 
do.call(), 92 


earth(), 129, 130 

edit (), 29 

equal.count(), 50, 51 

eval.stats(), 145, 156 

experimentalComparison (), 81, 83- 86, 
142, 262 

exprs(), 238 


Factor(), 11, 171 
featureNames (), 247 
filterfun(), 245 
floor(), 242 

for(), 32, 64 


genefilter(), 245 

get .hist.quote(), 102 
getModelData(), 114, 163 
getSymbols(), 103, 104, 107, 114, 115 
getVariant (), 85, 92, 154 

getwd(), 35, 42 

gl(), 15 

grow(), 145, 156, 157 
growingWindow(), 143 


helust(), 205 
head(), 42 

help(), 5 
help.start(), 5 
hist (), 44, 45, 239 


histogram(), 59, 60 
HLC (), 109 
hldSettings(), 198 
ho.BPrule(), 200 


holdOut (), 194, 197-199, 213 


Ti}, 27 
identify(), 48, 80 
1£(), 32 

ifelse(), 80 
importance(), 116, 247 
index(), 101 
install.packages(), 4 
intersect (), 152 
is.na(), 49, 50, 58, 64 


jitter(), 45-47 
join(), 150 


KNN () , 257 
knn(), 256, 257 


knnlImputation(), 62, 92 


ks.test(), 182 
ksvm(), 128 


lapply(), 190 
length(), 8, 25, 168 
levelplot(), 248 
library(), 45, 49 
lines (), 45 

lmí(), 57, 64, 71, 82 
load(), 35, 179, 263 


loadSymbolLookup (), 104 


lofactor(), 201, 203 
loocv(), 253, 265 


make .names(), 246 
manyNAs (), 55 
margin.table(), 13 
mars(í(), 129 
matrix(), 19 
MC.nnetR(), 163 


mean(), 47, 48, 55, 56, 78, 80 


median(), 56 
modelData(), 115 
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naiveBayes(), 212, 215 
names í(), 18, 64 
ncol(), 29 

newTA(), lll 

Next (), 109 

nlevels(), 167, 177 
nnet (}, 124, 125 
nrow(), 29, 53 
nsFilter (), 243, 244 


odbcClose(), 106 
odbcConnect (), 106 

order (), 171 
outliers.rankinq(), 206, 207 


par(), 79 

performance (), 189 
plot (}, 34, 48, 72, 75, 80, 138, 188 
policy.1(), 145 
policy.2(), 145 
PRcurve (), 190 
predict(), 78, 125, 163 
prediction(), 189 
prettyTree(), 72 
princp(), 74 
prop.table(), 13 
prune(), 75 


q(), 4 
qa.plot(), 45 


randomForest (), 88 
rankSystems(), 148, 150, 263 
rbind(), 20 
read.table(), 42, 64, 71 
read.zoo(), 102 
regr.eval(), 79 
rep{), 15 

resp(), 82 

return(), 31, 58 
Return.calculate(), 159 
rev(), 190 

rnorm(), 16 

rowIQRs(), 242 
rowMedians (), 241 
rownames (), 21 

rowQ(), 242 


rpart (), 71, 74-76 
rpartXse(), 75, 82 
rug(), 45-47 


sapply(), 58, 171 
save(), 35, 179 
save.image(), 35 
saveSymbolLookup (), 104 
scale(), 93, 124 
SelfTrain(), 223-225 
seq(), 14, 99 
seq.POSIXt(), 99 
set.seed(), 124 
setSymbolLookup(), 103, 104, 115 
setwd(), 35 
shorth(), 240 
Sigs.PR(), 125, 145 
single(), 145, 156 
slide(), 145, 156 
slidingWindow(), 143 
SMOTE () , 210 
snip.rpart(), 76 
SoftMax(), 203 
sort(), 64 
source(), 34 
specifyModel(), 114, 115 
split{), 202, 203 
eqlFecth(), 106 
sqlFecthMore(), 106 
sqiFetch(), 106 
statScores(), 152 
step(), 69, 70 
stripplot(), 50, 51, 60 
strsplit(), 92 
structure(), 198, 265 
subset(), 28, 150 
summary (), 43, 65, 66, 72, 148, 167, 
168, 253 
svm(), 127, 128, 254 
symnum(), 57 
system.time(), 242 


T.ind(), 110 

table(), 12, 238 
table.CalendarReturns (), 160 
table.DownsideRisk(í), 161 


tapply(), 197 

text(), 72 

time (), 101 

trading.signals(), 117, 118, 125 
trading.simulator(), 133, 145 
tradingEvaluation(), 138, 145 


unlist(), 26 
unscale(), 124, 125 
update (), 67 


varclus(), 250 
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variant(), 83 
variants (), B3, 262 
variImpPlot(), 116 


Weka control(), 219 


which(), 64, 168 
WOW (), 219 


xtsí(), 98 


yearlyReturn(í), 159 


